web service的网络爬虫设计与实现

本文档由 图纸153893706 分享于2012-03-07 15:25

互联网上的服务数量增长快速,网站提供的关于服务的信息也各异,导致用户难以正确、快速的找到合适的服务,为了解决以上问题,需要获取和保存服务的WSDL的URL和相关的服务信息。本文完成了一个Web服务信息分析、抓取的网络爬虫,主要研究开发内容有:1)分析服务网站结构:在抓取某个网站上的服务前,要人工的分析出该网站哪些页面需要抓取,哪些页面中哪些信息需要抓取;2)页面信息提取:根据人工分析出的哪些页面中哪些信息需要抓取的结构,使用HtmlParser工具抓取页面中的信息。3)下载WSDL文档:在抓取到了服务WSDL的URL后,使用HtmlClient下载WSDL文档。4)加载服务信息到数据库:把在页面信息提取中得到的关于服务的信息存入数据库中。 通过对Web服务的抓取,用户可以通过统一的入口来访问这些服务,而不用在互联网上盲目搜索。为服务的使用和开发提供更加..
文档格式:
.doc
文档大小:
1.55M
文档页数:
69
顶 /踩数:
0 0
收藏人数:
21
评论次数:
0
文档热度:
文档分类:
IT计算机  —  网络与通信
添加到豆单
文档标签:
webservice 网络爬虫
系统标签:
爬虫 web 网络 heritrix 抓取 service
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到