新闻正文提取之boilerpipe - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1247102 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

新闻正文提取之boilerpipe

博客分类：

Spider

阅读更多

概述：

Boilerpipe即我们需要的正文提取工具，其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息，包括多种提取方式具体的参见：CommonExtractors

环境：

jdk1.6

boilerpipe-1.2.0

提取新闻正文demo代码如下：

public static void main(String[] args) throws Exception {
	String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";
	TextDocument doc = new BoilerpipeSAXInput(new InputSource(new URL(url).openStream()))
			.getTextDocument();
	BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
	extractor.process(doc);
	System.out.println("title:" + doc.getTitle());
	System.out.println("content:" + doc.getContent());

}

依赖的lib参见附件

lib.rar (1.2 MB)
下载次数: 91

boilerpipe-1.2.0-bin.tar.gz (1.9 MB)
下载次数: 94

0
顶

2
踩

分享到：

基于NekoHTML和dom4j获取所有html的Xpath | 新闻正文提取之joyhtml

2013-10-11 17:14
浏览 5317
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

正文提取工具boilerpipe: 过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。

网页正文提取工具boilerpipe1.2bin包: 输入一个url或者string型的网页源码，通过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。网页正文提取工具，这是目前销量最高，提取一个网页正文信息只需要毫秒级的时间消耗...

Python库 | boilerpipe-py3-1.2.0.0.tar.gz: 在实际应用中，Boilerpipe库可以帮助开发者构建新闻聚合服务，自动从大量网站中提取新闻文章的核心内容；在数据抓取项目中，它能提升数据处理的效率，减少无关信息的干扰；对于SEO专业人士，它可以用来优化网页结构...

JAVA源码文本-boilerpipe_source_code:文本提取源代码。技术文档。Java: 这个开源项目，正如其标题“JAVA源码文本-boilerpipe_source_code”所示，提供了文本提取的源代码，对于需要处理大量网页内容的应用程序，如搜索引擎、新闻聚合器或信息提取系统，是非常有价值的。 Boilerpipe的...

boilerpipe:从 HTML 页面中删除样板和全文提取: 该库已经为常见任务（例如：新闻文章提取）提供了特定策略，并且还可以针对个别问题设置轻松扩展。提取内容非常快（毫秒），只需要输入文档（不需要全局或站点级别的信息）并且通常非常准确。 Boilerpipe 是一个由...

boilerpipe.net: 该库已经为常见任务提供了特定的策略（例如，新闻文章提取），并且还可以针对单个问题设置轻松进行扩展。提取内容的速度非常快（毫秒），只需要输入文档（不需要全局或站点级别的信息），并且通常非常准确。安装...

boilerpipe:从 code.google.compboilerpipe 自动导出: 5. **API**: Boilerpipe提供了一个简单易用的Java API，开发者可以轻松地在自己的应用程序中集成正文提取功能。 6. **Performance**: 由于Boilerpipe的设计考虑了效率，因此它在处理大量网页时表现出色，适合批量...

derquinse-common-jaxrs-gson-1.0.31.zip: 3. **Boilerpipe**：Boilerpipe库是一个高效的网页内容提取工具，它通过预定义的策略（称为“提取器”）分析HTML文档，找出主要内容并忽略诸如广告、导航菜单等非正文部分。这对于搜索引擎优化（SEO）、新闻聚合或...

Crime_Visualization:从在线新闻网站的标题中可视化犯罪: 本项目以在线新闻网站的标题为数据源，利用多种技术手段进行数据提取、处理和展示，旨在揭示隐藏在海量信息中的犯罪趋势和热点区域。首先，项目采用PHP作为主要的后端编程语言，它在处理Web应用程序和数据交互方面...

Global site tag (gtag.js) - Google Analytics