web service的网络爬虫设计与实现

448阅读 21人收藏 69页图纸153893.上传举报/认领合伙人(招募中) 展开

本文档由图纸153893706 分享于2012-03-07 15:25

互联网上的服务数量增长快速，网站提供的关于服务的信息也各异，导致用户难以正确、快速的找到合适的服务，为了解决以上问题，需要获取和保存服务的WSDL的URL和相关的服务信息。本文完成了一个Web服务信息分析、抓取的网络爬虫，主要研究开发内容有：1）分析服务网站结构：在抓取某个网站上的服务前，要人工的分析出该网站哪些页面需要抓取，哪些页面中哪些信息需要抓取；2）页面信息提取：根据人工分析出的哪些页面中哪些信息需要抓取的结构，使用HtmlParser工具抓取页面中的信息。3）下载WSDL文档：在抓取到了服务WSDL的URL后，使用HtmlClient下载WSDL文档。4）加载服务信息到数据库：把在页面信息提取中得到的关于服务的信息存入数据库中。通过对Web服务的抓取，用户可以通过统一的入口来访问这些服务，而不用在互联网上盲目搜索。为服务的使用和开发提供更加..

文档格式：: .doc
文档大小：: 1.55M
文档页数：: 69页
顶 /踩数：: 0 / 0
收藏人数：: 21
评论次数：: 0
文档热度：
文档分类：: IT计算机 — 网络与通信; 添加到豆单