C.NET语言的爬虫程序

本文档由 h112699 分享于2009-06-30 07:52

C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。下面是构造一个蜘蛛程序要解决的关键问题: ⑴ HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面。 ⑵ 页面处理:需要处理每一个下载得到的页面。下载得到的内容可能要保存到磁盘,或者进一步分析处理。 ⑶ 多线程:只有拥有多线程能力,蜘蛛程序才能真正做到高效。 ⑷ 确定何时..
文档格式:
.doc
文档大小:
196.5K
文档页数:
35
顶 /踩数:
40 0
收藏人数:
56
评论次数:
2
文档热度:
文档分类:
IT计算机  —  开发文档
添加到豆单
文档标签:
URL string int 线程 C 蜘蛛 HTML return sTotalSubM HREF
系统标签:
程序 workerbegin waitdone waitbegin workerend 爬虫
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到