web service的网络爬虫设计与实现
本文档由 图纸153893706 分享于2012-03-07 15:25
互联网上的服务数量增长快速,网站提供的关于服务的信息也各异,导致用户难以正确、快速的找到合适的服务,为了解决以上问题,需要获取和保存服务的WSDL的URL和相关的服务信息。本文完成了一个Web服务信息分析、抓取的网络爬虫,主要研究开发内容有:1)分析服务网站结构:在抓取某个网站上的服务前,要人工的分析出该网站哪些页面需要抓取,哪些页面中哪些信息需要抓取;2)页面信息提取:根据人工分析出的哪些页面中哪些信息需要抓取的结构,使用HtmlParser工具抓取页面中的信息。3)下载WSDL文档:在抓取到了服务WSDL的URL后,使用HtmlClient下载WSDL文档。4)加载服务信息到数据库:把在页面信息提取中得到的关于服务的信息存入数据库中。 通过对Web服务的抓取,用户可以通过统一的入口来访问这些服务,而不用在互联网上盲目搜索。为服务的使用和开发提供更加..
君,已阅读到文档的结尾了呢~~