一篇经典综述,scholar.google.cn上显示该文被引用超过300次
Laender, A. H. F.; Ribeiro-Neto, B. A.; da Silva, A. S. & Teixeira, J. S. A brief survey of web data extraction tools. SIGMOD Rec., ACM, 2002, 31, 84-93
Abstract:In the last few years, several works in the literature have addressed
the problem of data extraction from Web pages. The importance of this
problem derives from the fact that, once extracted, the data can be
handled in a way similar to instances of a traditional database. The
approaches proposed in the literature to address the problem of Web
data extraction use techniques borrowed from areas such as natural
language processing, languages and grammars, machine learning,
information retrieval, databases, and ontologies. As a consequence,
they present very distinct features and capabilities which make a
direct comparison difficult to be done. In this paper, we propose a
taxonomy for characterizing Web data extraction fools, briefly survey
major Web data extraction tools described in the literature, and
provide a qualitative analysis of them. Hopefully, this work will
stimulate other studies aimed at a more comprehensive analysis of data
extraction approaches and tools for Web data.
分享到:
相关推荐
文件"A Brief Survey of Web Data Extraction Tools.pdf"可能会涵盖以下内容: 1. **基础概念**:介绍网页数据提取的基本原理,包括HTTP/HTTPS协议、网页结构(HTML、CSS、JavaScript)以及爬虫的工作方式。 2. **...
非常好的一篇深度强化学习综述文章。
文章主要描述多智能体的综述,该综述针对现阶段自动飞行集群和无人机编队的现状进行了深入的讨论和分析,对未来多智能体编队飞行做出了展望。
《人类简史:从动物到上帝》是由以色列历史学家尤瓦尔·赫拉利(Yuval Noah Harari)所著的一本极具影响力的科普书籍。书中通过宏大的视角,跨越了生物学、历史学、经济学、政治学等多个学科领域,探讨了人类的过去...
《UML精粹:标准对象建模语言简明指南》是一本深受欢迎的UML学习资料,由Martin Fowler等作者撰写。UML(统一建模语言)是软件工程领域中用于系统建模的一种标准化语言,它提供了一种图形化的方式来描述、可视化和...
1945年,万尼瓦·布什发表了一篇名为《我们如何思考》的开创性文章,首次提出了自动获取海量存储知识的概念[5]。到了20世纪50年代,这一理念逐渐转化为关于如何自动搜索文本档案的具体描述。其中,H.P.卢恩于1957年...
Downey所著的一本入门级操作系统教材,主要面向那些对操作系统设计和实现感兴趣的读者。该书不仅涵盖了操作系统的基础知识,还通过实际案例和示例程序,帮助学生和自学者深入理解程序运行时所发生的事情,以及在...
一篇论文:Deep Learning for Computer Vision: A Brief Review 作者:Athanasios Voulodimos ,1,2 Nikolaos Doulamis,2 Anastasios Doulamis,2 and Eftychios Protopapadakis2
A Brief History of Artificial Intelligence What It Is, Where We Are, and Where We Are Going by Michael Wooldridge (z-lib.org).pdf
A Brief History of Computing(2nd) 英文epub 第2版 本资源转载自网络,如有侵权,请联系上传者或csdn删除 查看此书详细信息请在美国亚马逊官网搜索此书
Think OS是面向程序员的操作系统介绍。 计算机架构知识不是先决条件。
总之,《本地不变特征检测器:一个综述》是一篇非常有价值的文献,对于从事计算机视觉和图像处理领域的研究人员来说,是不可或缺的重要参考材料。通过对这篇综述的学习,不仅可以了解到特征检测领域的发展历程,还能...
本文《Image Feature Information Extraction for Interest Point Detection:A Comprehensive Review》深入探讨了这一主题,旨在提供一个全面的回顾和理解这一领域的关键知识点。 首先,我们要理解兴趣点...
Adverse human reproductive outcomes and electromagnetic fields: A brief summary of the epidemiologic literature Bioelectromagnetics Supplement 5:S5^S18 (2001) Adverse Human Reproductive Outcomes ...
理解区块链就需要了解人文历史,而这本书以其独特的视角向我们讲述了人类的共识来源。
本书的标题“**NoSQL Distilled – A Brief Guide to the Emerging World of Polyglot Persistence**”准确地概括了其核心内容与目标受众。NoSQL(Not Only SQL)是指非关系型数据库系统,这类系统不依赖于传统的SQL...
数据挖掘 概念.模型.方法和算法 中译版 英文名:data mining concepts models methods and algorithms. In addition, a brief introduction of data mining is provided in the format of pdf.
夜间灯光数据处理的一个将要指南,英文版。 将要目录: 数据下载 灯光数据清理(converting, Re-classifing, Averaging, Gas Flares, Country Clipping, Gridding and Exporting, Once in Stata) 计算距离 ArcGIS...
SAGE(Semi-Automated Ground Environment)系统是一个典型的例子,它是第一个100万行代码级别的实时用户密集型防空系统。SAGE的成功展示了硬件导向的瀑布式开发过程的有效性,强调工程师的角色和方法的重要性。在这...