`

抽取网页数据的不同思路

    博客分类:
  • java
阅读更多
    客户要求从Internet上的网页上抽取一定的数据,用来显示或者其他用户,这个需求很常见。这两天我们也遇到了这个需求,本来我一开始想是试用正则表达式去匹配需要的文本数据,后来经验丰富的经理给出了一个更好的思路,就是使用jtidy将 不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件,然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文 件。这样做其实就是将XSL模板当正则表达式来用,不过更清晰,当网页改变时也不需要重新编译代码,仅仅修改XSL模板就够了。过程如下:
     html->xhtml--xsl模板-->数据xml

    做的过程中,初次使用了xsl,xpath等技术,网上找了不少好资料,共享下:
jtidy: 

思路来源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/

项目地址
http://jtidy.sourceforge.net/

参考,解决中文问题使用
http://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html

xsl,非常系统的教程和实践:

http://www.cnblogs.com/goody9807/category/36016.html

xpath:

http://www.yesky.com/201/171201.shtml

分享到:
评论
1 楼 simohayha 2007-11-24  
我们这边这次做,直接用正则表达式来做的,不过只要用户改变一下网页,我们的代码基本就要重写了。

相关推荐

    基于特征句抽取的网页去重研究

    实验采用大量真实网页数据进行验证,结果表明,基于特征句抽取的网页去重方法在处理跨语言网页时表现尤为出色。通过对比分析,可以明显看出该方法在提高识别精度的同时,也具备较高的效率和鲁棒性,为大规模网页去重...

    基于正则抽取的竹种数据结构化方法研究.pdf

    基于正则抽取的竹种数据结构化方法研究,为上述问题提供了创新的解决思路。该方法通过预定义的数据库表结构作为模板,利用数据表属性名称作为触发词,结合正则表达式定义具体的抽取规则。通过这种方式,可以自动化地...

    互联网网页文本对象抽取实现技术本科生.doc

    互联网网页文本对象抽取实现技术是当前计算机科学领域中一个关键的研究方向,主要目的是从海量的网页数据中自动抽取出有意义的、结构化的信息。随着互联网的飞速发展,信息爆炸现象日益严重,传统的信息检索方式已经...

    网页信息自动抽取技术的研究.pdf

    在处理大量网页数据时,本技术既保证了信息的质量,又保证了处理速度。这对于网络舆情的实时监测和分析具有重要的实际应用价值。 网络舆情分析在现代社会中扮演着越来越重要的角色。它能够帮助政策制定者和企业管理...

    基于行块分布函数的通用网页正文抽取算法1

    另一方面,虽然基于DOM树的方法直观并且易于理解,但在处理大规模网页数据时,其计算的复杂性会导致处理速度和资源消耗成为瓶颈。 为了解决这些问题,学术界与工业界都在积极探索更为高效、通用的正文抽取算法。...

    基于统计和机器学习的中文Web网页正文内容抽取.pdf

    例如,对于大规模的网页数据,需要设计高效的算法和数据结构以减少计算时间和存储需求。此外,实时性也是重要考量,模型应能快速响应新产生的网页内容。 综上所述,基于统计和机器学习的中文Web网页正文内容抽取是...

    WEB信息抽取的研究

    - **基于统计的自动信息抽取**:针对自由文本类网页(如新闻报道),设计了基于统计的方法,能够自动识别并抽取网页的关键信息(如标题、正文、发布时间等)。 - **其他方法**:基于规则的方法、机器学习方法等也...

    互联网网页文本对象抽取实现技术本科毕业论文.doc

    【互联网网页文本对象抽取实现技术】是针对当前信息爆炸时代的一种解决方案,旨在从海量网络文本中自动抽取结构化的信息,以便进行高效的搜索和信息整合。本文主要探讨的是如何利用HTML特征和机器学习方法来实现博客...

    开放式Web信息抽取系统研究与实现

    ### 开放式Web信息抽取系统的关键知识点 ...综上所述,开放式Web信息抽取系统通过其独特的设计思路和工作流程,为解决Web环境下信息抽取的难题提供了新的解决方案,对于提升网络数据的利用效率和质量具有重要意义。

    基于python数据分析技术的电商平台大闸蟹市场分析.pdf

    采集到的原始数据需要经过数据清洗、数据分组、数据检索、数据抽取等加工过程,以保证数据质量,便于后续分析。 3. 分析建模是指利用数据分析方法对数据进行深入研究,比如使用对比分析、分组分析、交叉分析、回归...

    Web页面分块算法MDSPS及其在Web信息抽取中的应用

    随着互联网技术的迅速发展,海量数据分布在各个网站上,如何有效地从这些网页中抽取有价值的信息成为了研究的重点之一。传统的信息抽取技术往往受到网页结构差异和变化的影响,导致抽取效果不佳。为了解决这一问题,...

    web数据挖掘工具和工具设计

    数据挖掘可以定义为从大量数据中抽取有用信息和知识的过程。这一过程通常涉及多个步骤,包括数据清洗、数据转换、数据挖掘算法的应用以及结果解释等。数据挖掘技术的核心在于自动化分析现有数据,通过归纳推理发现...

    大数据采集技术期末试卷及答案(仅供参考)

    1. 常见的Flume source包括:Avro Source(用于接收Avro格式的数据)、Exec Source(执行系统命令并捕获输出作为事件)、JDBC Source(从数据库中抽取数据)、Netcat Source(接收TCP或UDP数据流)和Thrift Source...

    基于云计算的Web数据挖掘.pdf

    Web数据挖掘是一种通过自动或半自动的方式从Web内容、结构以及使用信息中识别和抽取有价值信息的技术。Web数据挖掘主要分为三类:内容挖掘、结构挖掘和使用挖掘。内容挖掘关注于从网页内容中提取信息;结构挖掘关注...

    数据中心建设方案(简版).docx

    1. **数据采集**:采用Flume等工具实现不同类型数据的采集,包括文件、消息、网页信息等。 2. **计算存储服务**:利用Hadoop技术栈提供大数据存储和计算服务,支持批量处理和流处理。 3. **数据共享服务**:通过...

    网络云计算中高维混合数据高效检测仿真.pdf

    在云计算环境下,数据呈现多样化、规模庞大,高维混合数据因其包含了多种不同类型的数据特征而难以处理,这对传统的数据检测方法提出了挑战。本文提出了一种基于指数分布模型的高维混合数据高效检测仿真方法,旨在...

Global site tag (gtag.js) - Google Analytics