基于XML 的网页信息抽取

本文档由 h112699 分享于2009-11-01 22:48

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper 的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。
文档格式:
.pdf
文档大小:
1.05M
文档页数:
80
顶 /踩数:
5 0
收藏人数:
9
评论次数:
1
文档热度:
文档分类:
IT计算机  —  开发文档
添加到豆单
文档标签:
XSL 网页 HTM XPath 文本 extraction Text 节点 string select
系统标签:
xml 网页 抽取 wrapper rapper extraction
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到