信息抽取的两种方式:基于内嵌浏览器的navigation的抽取方式和crawler下网页进行离线抽取。
第一种方式可以利用浏览器强大的功能js,ajax和visual方面的信息,来提高抽取的准确性。
但效率比较低,js load的时间比较长,一些情况抽取的数据下无法满足实时性服务的需要。
第二种方式有较高的效率,但web的富客户化,ajax、flex等技术导致许多信息根本无法抽取。
对于第一种方法可以hack浏览器,添加js加载的cache,从cache中直接加载js的url对应的
js文件,能够很大程度减少load页面的时间。
对于Deep Web可以进行url及其参数拼装或者发送post请求去获得,google有一篇自动生成配装url和
crawle Deep Web数据的一篇论文,可以在http://www.cs.cornell.edu/~lucja/Publications/i03.pdf
找到
,剑波小童鞋做了翻译http://hi.baidu.com/megaj/blog/item/687b527a95e2b3fc0bd18787.html。
当然也可以使用模拟点击和提交表单的开源工具以及基于浏览器的Crawler,当然效率上要有折扣。
在抽取网站数量不是很巨大的情况下,进行Crawler还是可以维护的。
分享到:
相关推荐
清华大学刘知远老师和学生韩旭、高天宇所写的关于知识图谱相关的介绍。 机器之心获授权转载,此文为.md笔记...沿着实体关系抽取需要进一步探索的四个主要方向,介绍这四个方面的发展现状和挑战,以及 一些思考和努力。
【C#面向对象深入思考与综合运用】笔记主要围绕C#中的面向对象编程特性展开,通过设计一个体育彩票选号器的实例,展示了OOP在实际应用中的运用。下面将详细阐述涉及的知识点: 1. **窗体拖动**:窗体的拖动功能是...
### 关于农产品质量监测现场抽样环节信息化建设的几点思考 #### 一、引言 随着信息技术的发展,农产品质量监测的各个环节都在寻求信息化转型,以提高效率和准确性。现场抽样作为农产品质量监测的重要组成部分,其...
高级数据库技术课程笔记涵盖了数据库领域内的多个先进技术和概念,从XML数据库技术、面向对象的数据库、数据文件的组织与存储、事务并发处理、分布式数据库系统,到大数据、数据仓库、NoSQL以及内存数据库。...
在本篇【爬虫学习笔记:爬取古诗文网】中,我们探讨了一种针对古诗文网站的网络爬虫实现,目的是抓取古诗的内容、作者和朝代,并将这些信息保存到本地文件中。以下是具体的技术点和过程详解: 1. **目标网站**: ...
思维导图,作为一种强大的认知工具,已经成为人们组织信息、提升记忆和创新思考的重要手段。尤其在思维导图7版本中,这一功能得到了进一步的优化和升级,为用户带来了更加丰富且便捷的体验。在这个免费版本中,我们...
数据处理能力要求考生能收集、整理、分析数据,抽取有用信息,并构建模型进行分析,得出结论。 此外,考试大纲还强调了应用意识和创新意识的重要性。考生需要能够应用所学数学知识和方法解决实际问题,包括对问题...
- 高质量教学设计:教学设计应提前分发给学生,作为课堂教学的辅助工具,让学生能在课堂上专注思考和理解,而非忙于做笔记。 - 课标分析:教学设计需准确分析课标,明确教学内容的深度和广度,帮助学生理解历史...
- **板书**:辅助讲授,清晰展示重要信息,有助于学生笔记和回顾。 在面试中,考生应展现出良好的教育理念、扎实的专业知识和灵活的教学技巧。通过精心的准备和演练,考生可以在面试中展现出自己作为未来教师的...
此外,精读文章需提供全文,并且要有批注或笔记,显示出学生已深入理解和思考过这些文章的内容。 再者,学生需要接受导师和文献审查小组的考核。导师会根据学生的文献阅读报告给出合格或不合格的评价,以确认学生...
- **撰写札记**: 将阅读心得和思考整理成笔记。 #### 调查问卷的问题种类 - **定义**: 设计调查问卷时,根据问题的目的和性质,可以将其分为不同类型。正确答案包括**背景性问题**(选项A)、**客观性问题**(选项B)、...
- **人格**则是指个体在行为、思考和情感上的独特模式,它稳定且贯穿于个体的一生之中。 ### 感觉类型 1. **外部感觉与内部感觉的区别**:外部感觉指的是个体对外界刺激的感知,如视觉、听觉等;而内部感觉则涉及...