抽取网页数据的不同思路 - 庄周梦蝶 - ITeye博客

`

dennis_zane

浏览: 952426 次
性别:
来自: 杭州

最近访客更多访客>>

zxh1000

san_yun

cqwb123

beifengbei08

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

我的资讯 ( 33)
我的论坛 ( 1529)
我的问答 ( 28)

存档分类

最新评论

hw7777777：非常感谢作者提供这么好的工具，在使用的过程中遇到一些问题？1、 ...
基于java nio的memcached客户端——xmemcached
SINCE1978：多久过去了时间能抹平一切
无路用的人
fangruanyjq： [img][/img]引用
用osworkflow写一个请假例子(提供代码下载）
thinkingmysky：楼主，你确定，java memached client能处理并 ...
memcached java client性能测试的几点疑问和说明
hellostory： aaa5131421 写道07年2月hibernate已经出来 ...
dozer与BeanUtils

抽取网页数据的不同思路

博客分类：

java

正则表达式 XSL XHTML XML .net

阅读更多

    客户要求从Internet上的网页上抽取一定的数据，用来显示或者其他用户，这个需求很常见。这两天我们也遇到了这个需求，本来我一开始想是试用正则表达式去匹配需要的文本数据，后来经验丰富的经理给出了一个更好的思路，就是使用jtidy将不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件，然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文件。这样做其实就是将XSL模板当正则表达式来用，不过更清晰，当网页改变时也不需要重新编译代码，仅仅修改XSL模板就够了。过程如下：
     html->xhtml--xsl模板-->数据xml

    做的过程中，初次使用了xsl,xpath等技术，网上找了不少好资料，共享下：
jtidy:

思路来源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/

项目地址
http://jtidy.sourceforge.net/

参考，解决中文问题使用
http://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html

xsl,非常系统的教程和实践:

http://www.cnblogs.com/goody9807/category/36016.html

xpath:

http://www.yesky.com/201/171201.shtml

分享到：

今天长见识了 | 读《人工智能的未来》

2007-11-22 12:38
浏览 2491
评论(1)
查看更多

评论

1 楼 simohayha 2007-11-24

我们这边这次做，直接用正则表达式来做的,不过只要用户改变一下网页，我们的代码基本就要重写了。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于特征句抽取的网页去重研究: 实验采用大量真实网页数据进行验证，结果表明，基于特征句抽取的网页去重方法在处理跨语言网页时表现尤为出色。通过对比分析，可以明显看出该方法在提高识别精度的同时，也具备较高的效率和鲁棒性，为大规模网页去重...

基于正则抽取的竹种数据结构化方法研究.pdf: 基于正则抽取的竹种数据结构化方法研究，为上述问题提供了创新的解决思路。该方法通过预定义的数据库表结构作为模板，利用数据表属性名称作为触发词，结合正则表达式定义具体的抽取规则。通过这种方式，可以自动化地...

网页新闻内容抽取的论文: ### 网页新闻内容抽取的关键技术与方法 ...通过引入“块”的概念以及对网页块分布的深入研究，该方法能够在很大程度上克服传统方法中存在的局限性，为未来的内容抽取技术提供了新的思路和发展方向。

互联网网页文本对象抽取实现技术本科生.doc: 互联网网页文本对象抽取实现技术是当前计算机科学领域中一个关键的研究方向，主要目的是从海量的网页数据中自动抽取出有意义的、结构化的信息。随着互联网的飞速发展，信息爆炸现象日益严重，传统的信息检索方式已经...

网页信息自动抽取技术的研究.pdf: 在处理大量网页数据时，本技术既保证了信息的质量，又保证了处理速度。这对于网络舆情的实时监测和分析具有重要的实际应用价值。网络舆情分析在现代社会中扮演着越来越重要的角色。它能够帮助政策制定者和企业管理...

基于行块分布函数的通用网页正文抽取算法1: 另一方面，虽然基于DOM树的方法直观并且易于理解，但在处理大规模网页数据时，其计算的复杂性会导致处理速度和资源消耗成为瓶颈。为了解决这些问题，学术界与工业界都在积极探索更为高效、通用的正文抽取算法。...

基于模板的Java网页结构化信息精准抽取组件HtmlExtractor设计源码: HtmlExtractor是一个精心...极大地方便了开发人员对网页内容的解析和提取工作，通过模板化的手段实现了信息抽取的精准性和灵活性，同时配套的备份机制提升了组件的稳定性和可靠性，使之成为处理网页数据的有力工具。

基于统计和机器学习的中文Web网页正文内容抽取.pdf: 例如，对于大规模的网页数据，需要设计高效的算法和数据结构以减少计算时间和存储需求。此外，实时性也是重要考量，模型应能快速响应新产生的网页内容。综上所述，基于统计和机器学习的中文Web网页正文内容抽取是...

WEB信息抽取的研究: - **基于统计的自动信息抽取**：针对自由文本类网页（如新闻报道），设计了基于统计的方法，能够自动识别并抽取网页的关键信息（如标题、正文、发布时间等）。 - **其他方法**：基于规则的方法、机器学习方法等也...

互联网网页文本对象抽取实现技术本科毕业论文.doc: 【互联网网页文本对象抽取实现技术】是针对当前信息爆炸时代的一种解决方案，旨在从海量网络文本中自动抽取结构化的信息，以便进行高效的搜索和信息整合。本文主要探讨的是如何利用HTML特征和机器学习方法来实现博客...

基于python数据分析技术的电商平台大闸蟹市场分析.pdf: 采集到的原始数据需要经过数据清洗、数据分组、数据检索、数据抽取等加工过程，以保证数据质量，便于后续分析。 3. 分析建模是指利用数据分析方法对数据进行深入研究，比如使用对比分析、分组分析、交叉分析、回归...

Web页面分块算法MDSPS及其在Web信息抽取中的应用: 随着互联网技术的迅速发展，海量数据分布在各个网站上，如何有效地从这些网页中抽取有价值的信息成为了研究的重点之一。传统的信息抽取技术往往受到网页结构差异和变化的影响，导致抽取效果不佳。为了解决这一问题，...

web数据挖掘工具和工具设计: 数据挖掘可以定义为从大量数据中抽取有用信息和知识的过程。这一过程通常涉及多个步骤，包括数据清洗、数据转换、数据挖掘算法的应用以及结果解释等。数据挖掘技术的核心在于自动化分析现有数据，通过归纳推理发现...

大数据采集技术期末试卷及答案（仅供参考）: 1. 常见的Flume source包括：Avro Source（用于接收Avro格式的数据）、Exec Source（执行系统命令并捕获输出作为事件）、JDBC Source（从数据库中抽取数据）、Netcat Source（接收TCP或UDP数据流）和Thrift Source...

基于云计算的Web数据挖掘.pdf: Web数据挖掘是一种通过自动或半自动的方式从Web内容、结构以及使用信息中识别和抽取有价值信息的技术。Web数据挖掘主要分为三类：内容挖掘、结构挖掘和使用挖掘。内容挖掘关注于从网页内容中提取信息；结构挖掘关注...

数据中心建设方案(简版).docx: 1. **数据采集**：采用Flume等工具实现不同类型数据的采集，包括文件、消息、网页信息等。 2. **计算存储服务**：利用Hadoop技术栈提供大数据存储和计算服务，支持批量处理和流处理。 3. **数据共享服务**：通过...

Global site tag (gtag.js) - Google Analytics