`

一个很有用的Information Extraction的firefox插件

阅读更多
要比较Information Extraction的效率,把网页保存在本地这样可以排除网速的影响,从而得到一个更让人信服的结果,但是直接的download许多动态网页,保存下来的结果在浏览器呈现就会失去原来的样式,从而影响Extraction的准确性特别是利用Visual信息的Extraction算法,另一方面许多测试的网页过一段时间可能就不存在了,一个可以Save网页完整信息的工具就显得比较重要,这个工具就是提供这个功能的。
2
0
分享到:
评论
4 楼 D04540214 2009-02-26  
谢谢,fuliang兄。
3 楼 fuliang 2009-02-12  
D04540214 写道

不知道这个工具能够用Java程序调用? 这方面知识比较喜欢 谢谢

有一些Java操作浏览器的开源的东东,如Watrj和Selenium,不知道能操作插件不
2 楼 D04540214 2009-02-11  

不知道这个工具能够用Java程序调用?

这方面知识比较喜欢 谢谢
1 楼 fuliang 2008-12-29  
这个东东对直接浏览器提供的Save Complete以及一些Web Site Downloader: 如HTTrack 3.33,Personal Web Archive: 如WebCite,Personal Proxy:如 WWWOFFLE 2.8e等做了一些改进,详情可以见论文:
Creating Permanent Test Collections of Web Pages for Information Extraction Research

相关推荐

Global site tag (gtag.js) - Google Analytics