`
liu208286
  • 浏览: 17101 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

讨论网页文章通用抓取方法

    博客分类:
  • Java
阅读更多

     这一段时间一直在做一个网页内容抓取的东西(新闻抓取),到现在基本完成了,由于网站个数不是太多,选用的是一个站点一个模板的方式进行内容的提取。可是模板的方式呢,实现地区比较简单,但是为每个网站添加模板是个很痛苦的事。


      最近几天一直在想怎么用通用的方式提取网页信息,我现在有个想法是,由于html中<p></p>标签是用来分段的,那么我把一个网页下载下来然后用正则表达式的取<p></p>标签中内容。如果是单个的<p></p>标签那么判断里面是不是有标点(文章里应该都有标点的吧?),如果的有的话那么就是文章正文。如果<p></p>标签是连续多个的话一般来说直接就可以确定它是文章了,这样就可以把文章提取出来。(刚发现还要网友评论要考虑,晕!怎么除去这类不需要的信息啊!)

 

      还有一个体会是,网页中除了正文中的超连接外,其他的都是可以去除的。

 

 

     怎么取出一个网页的内容呢?各位有什么想法吗?

 

       如果有人熟悉网页分块提取的话,欢迎给个思路怎么做。

1
1
分享到:
评论
5 楼 liu208286 2008-11-19  
flyinweb 写道

你需要《基于视觉网页块分析技术的正文抽取》
vips

谢啦,下来在看了,不知道能看的懂吗?
4 楼 fuliang 2008-11-18  
Wrapper就是做这件事情的,现在有许多讨论抽取网页中结构化数据论文可以参考。
3 楼 tanleihaoren 2008-11-18  
使用htmlparser或者正则吧!个人感觉正则好一些。
2 楼 flyinweb 2008-11-16  
你需要《基于视觉网页块分析技术的正文抽取》
vips
1 楼 playfish 2008-11-15  
抓取简单,找个html解析的类库,比如Jericho,使用它提供的一些api来解析。

将javaeye这样的文章正文,只要一句代码就能获得到了。

相关推荐

    httpclient抓取网页数据和所需的10个jar包

    本篇文章将详细介绍如何使用HttpClient库抓取网页数据,并讨论与之相关的10个关键jar包。 HttpClient库提供了丰富的API,可以方便地执行GET、POST和其他HTTP方法,设置请求头,管理Cookie,处理重定向,以及进行...

    一种用于工业机器人的抓取机构设计.pdf

    张亚辉的论文研究了基于目标检测算法的机器人抓取系统,赵健等人优化了抓取细长工件的桁架机器人组件设计,而脑极体的文章则讨论了机器人抓取技术的创新和发展。 作者杨明鄂来自湖南汽车工程职业学院,研究方向为...

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页html

    接着,解析HTML,通过CSS选择器、XPath等方法定位到目标内容,如文章正文、标题、链接等,并将这些信息存储下来。 3. **获取URL地址**: 在网页抓取过程中,爬虫不仅要处理当前页面,还需要找到页面上的其他链接,...

    关关采集器v3.3完整最终全版本通用1.7、1.8、2.X,3.X

    关关采集器正是这样的工具,它能够帮助用户自动化地从网页上抓取结构化和非结构化的信息,如商品价格、用户评论、新闻文章等,极大地提升了数据获取的效率。 在技术层面上,关关采集器v3.3的兼容性体现在对PHP不同...

    过滤型爬虫的研究与设计

    通用搜索引擎的网络爬虫通常追求全面覆盖,即尽可能多地抓取网页。而专业领域搜索引擎则更关注特定主题的内容,因此需要一种更智能的方法来筛选和抓取相关信息。 #### 三、过滤型网络爬虫技术 ##### (一)链接...

    基于 Python的网络爬虫程序设计.docx

    然后,讨论了Python中用于网页数据筛选的三种方法:正则表达式、XPath路径语言和Beautiful Soup库。最后,提到了Scrapyredis框架和Redis的结合,用于实现分布式爬取,提升爬虫性能。 **详细知识点** 1. **Python...

    基于网络爬虫的单词翻译器设计与研究.pdf

    1. 网络爬虫技术:通过编写定向爬虫,利用Requests库抓取网页数据。 2. Python编程:Python语言在爬虫开发和GUI界面构建中的应用。 3. GUI界面编程:使用Python的GUI库(如Tkinter)创建用户交互界面。 4. 实时数据...

    一个用C#写的爬CSDN精华贴的简易工具爬虫

    CSDN是一个知名的中文IT技术社区,其精华贴通常包含有价值的技术文章和讨论。通过分析网页源代码,我们可以找到精华贴列表的HTML元素,如帖子的标题、作者、发布时间和链接等。 1. **HTTP请求与响应**: 在C#中,...

    基于PHP的易贝PHP文章管理平台源码.zip

    【描述】描述中的"基于PHP的易贝PHP文章管理平台源码.zip"再次强调了这个项目的核心技术是PHP,这是一种广泛使用的开源脚本语言,尤其适合服务器端网页开发。源码通常包含所有必要的文件,如HTML、CSS、JavaScript...

    Deformable_Surface_3D_Reconstruction_from_Monocular_Images

    虽然这类方法理论上更加通用,但由于缺乏先验信息的帮助,它们在处理复杂场景时可能会遇到更多困难。 ##### 特征提取与匹配 无论是基于模板还是非基于模板的方法,都需要从单目图像中有效地提取特征,并进行准确的...

    C&C++.rar_C++_C/C++精华文章_c

    这篇文章可能深入讨论了C++中的特定语言特性,比如模板、异常处理、STL(标准模板库)、智能指针等,帮助读者理解C++中的高级概念。 4. **鼠标屏幕取词 原理.txt**: 讨论了如何利用C++实现屏幕抓取和文本识别...

    Go-damsel-通过CSS选择器和公共模板功能提取html大纲

    例如,你可以创建一个模板来处理所有的新闻文章,每个文章的标题、作者和日期等信息会被对应的数据替换。 使用Go-damsel的过程通常包括以下步骤: 1. **导入库**:在Go项目中引入damsel库,通常通过`import ...

    RSS-XML Data-Binding to Data Control with Row Limitations

    本文将深入探讨如何使用RSS-XML数据绑定来控制数据展示,并针对行限制进行讨论。 RSS是一种基于XML的格式,用于发布经常更新的内容,如博客文章、新闻报道或播客。它允许用户订阅这些信息源,通过聚合器一次性查看...

    psb手稿:太平洋人民生物计算专题讨论会的手稿来源

    "PublishingHTML"标签则意味着手稿可能以HTML(超文本标记语言)格式呈现,这是一种通用的网页编写语言,可以提供丰富的格式化和交互性。在学术出版中,HTML格式允许读者在不同设备上轻松访问和阅读内容,同时也方便...

    txtForRead

    这类文件通常用于存储纯文本信息,如小说、文章、代码注释等,因其简洁、通用和易于处理而被广泛使用。 【描述】"txtForReadtxtForRead" 的描述看似重复,可能是指读取或处理多个.txt文件的过程,可能涉及到批量...

    网络营销部工作规范(初稿).doc

    综上,网络营销部的工作规范涵盖了网络营销的各个环节,从宏观的策略制定到微观的细节操作,旨在通过系统化的方法提升网络营销的效果,实现公司的业务目标。团队成员需要不断学习和适应这些规范,以保持在网络营销...

    万能网站模板(方便快捷)已经测试

    【万能网站模板(方便快捷)已经测试】这个标题揭示了我们讨论的核心——一个通用的、易用且高效的网站模板,它已经过测试并证明其功能性和稳定性。这个模板可能是为了帮助网页设计师或开发者快速搭建网站,减少从零...

Global site tag (gtag.js) - Google Analytics