客户要求从Internet上的网页上抽取一定的数据,用来显示或者其他用户,这个需求很常见。这两天我们也遇到了这个需求,本来我一开始想是试用正则表达式去匹配需要的文本数据,后来经验丰富的经理给出了一个更好的思路,就是使用
jtidy将 不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件,然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文 件。这样做其实就是将XSL模板当正则表达式来用,不过更清晰,当网页改变时也不需要重新编译代码,仅仅修改XSL模板就够了。过程如下:
html->xhtml--xsl模板-->数据xml
做的过程中,初次使用了xsl,xpath等技术,网上找了不少好资料,共享下:
jtidy:
思路来源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/
项目地址
http://jtidy.sourceforge.net/
参考,解决中文问题使用
http://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html
xsl,非常系统的教程和实践:
http://www.cnblogs.com/goody9807/category/36016.html
xpath:
http://www.yesky.com/201/171201.shtml
分享到:
相关推荐
实验采用大量真实网页数据进行验证,结果表明,基于特征句抽取的网页去重方法在处理跨语言网页时表现尤为出色。通过对比分析,可以明显看出该方法在提高识别精度的同时,也具备较高的效率和鲁棒性,为大规模网页去重...
### 网页新闻内容抽取的关键技术与方法 ...通过引入“块”的概念以及对网页块分布的深入研究,该方法能够在很大程度上克服传统方法中存在的局限性,为未来的内容抽取技术提供了新的思路和发展方向。
互联网网页文本对象抽取实现技术是当前计算机科学领域中一个关键的研究方向,主要目的是从海量的网页数据中自动抽取出有意义的、结构化的信息。随着互联网的飞速发展,信息爆炸现象日益严重,传统的信息检索方式已经...
例如,对于大规模的网页数据,需要设计高效的算法和数据结构以减少计算时间和存储需求。此外,实时性也是重要考量,模型应能快速响应新产生的网页内容。 综上所述,基于统计和机器学习的中文Web网页正文内容抽取是...
- **基于统计的自动信息抽取**:针对自由文本类网页(如新闻报道),设计了基于统计的方法,能够自动识别并抽取网页的关键信息(如标题、正文、发布时间等)。 - **其他方法**:基于规则的方法、机器学习方法等也...
【互联网网页文本对象抽取实现技术】是针对当前信息爆炸时代的一种解决方案,旨在从海量网络文本中自动抽取结构化的信息,以便进行高效的搜索和信息整合。本文主要探讨的是如何利用HTML特征和机器学习方法来实现博客...
### 开放式Web信息抽取系统的关键知识点 ...综上所述,开放式Web信息抽取系统通过其独特的设计思路和工作流程,为解决Web环境下信息抽取的难题提供了新的解决方案,对于提升网络数据的利用效率和质量具有重要意义。
采集到的原始数据需要经过数据清洗、数据分组、数据检索、数据抽取等加工过程,以保证数据质量,便于后续分析。 3. 分析建模是指利用数据分析方法对数据进行深入研究,比如使用对比分析、分组分析、交叉分析、回归...
随着互联网技术的迅速发展,海量数据分布在各个网站上,如何有效地从这些网页中抽取有价值的信息成为了研究的重点之一。传统的信息抽取技术往往受到网页结构差异和变化的影响,导致抽取效果不佳。为了解决这一问题,...
数据挖掘可以定义为从大量数据中抽取有用信息和知识的过程。这一过程通常涉及多个步骤,包括数据清洗、数据转换、数据挖掘算法的应用以及结果解释等。数据挖掘技术的核心在于自动化分析现有数据,通过归纳推理发现...
它在图书情报领域中扮演了重要的角色,特别是随着互联网信息的爆炸性增长,数据挖掘技术为图书情报工作提供了新的思路和方法,极大地提高了信息处理的效率和质量。 数据挖掘技术最早可以追溯到20世纪60年代的早期...
1. 常见的Flume source包括:Avro Source(用于接收Avro格式的数据)、Exec Source(执行系统命令并捕获输出作为事件)、JDBC Source(从数据库中抽取数据)、Netcat Source(接收TCP或UDP数据流)和Thrift Source...
Web数据挖掘是一种通过自动或半自动的方式从Web内容、结构以及使用信息中识别和抽取有价值信息的技术。Web数据挖掘主要分为三类:内容挖掘、结构挖掘和使用挖掘。内容挖掘关注于从网页内容中提取信息;结构挖掘关注...
1. **数据采集**:采用Flume等工具实现不同类型数据的采集,包括文件、消息、网页信息等。 2. **计算存储服务**:利用Hadoop技术栈提供大数据存储和计算服务,支持批量处理和流处理。 3. **数据共享服务**:通过...
在云计算环境下,数据呈现多样化、规模庞大,高维混合数据因其包含了多种不同类型的数据特征而难以处理,这对传统的数据检测方法提出了挑战。本文提出了一种基于指数分布模型的高维混合数据高效检测仿真方法,旨在...
- **企业级ETL平台**:负责数据的标准化处理,支持非实时与实时数据处理,具备数据抽取、转换、加载、汇总、分发及挖掘等功能。 - **存储与计算中心**:构建统一的数据模型,提供关系数据库、分布式非关系数据库、...
在网页爬虫中,正则表达式可以被用来筛选和抽取网页中的特定信息,例如电子邮箱、电话号码等。 实现网页爬虫的思路可以分为几个步骤。首先,需要为爬虫程序指定一个目标URL,这个URL指向我们需要爬取的网页。其次,...