概述:
Boilerpipe即我们需要的正文提取工具,其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息,包括多种提取方式具体的参见:CommonExtractors
环境:
jdk1.6
boilerpipe-1.2.0
提取新闻正文demo代码如下:
public static void main(String[] args) throws Exception { String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html"; TextDocument doc = new BoilerpipeSAXInput(new InputSource(new URL(url).openStream())) .getTextDocument(); BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR; extractor.process(doc); System.out.println("title:" + doc.getTitle()); System.out.println("content:" + doc.getContent()); }
依赖的lib参见附件
相关推荐
过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。
输入一个url或者string型的网页源码,通过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。网页正文提取工具,这是目前销量最高,提取一个网页正文信息只需要毫秒级的时间消耗...
在实际应用中,Boilerpipe库可以帮助开发者构建新闻聚合服务,自动从大量网站中提取新闻文章的核心内容;在数据抓取项目中,它能提升数据处理的效率,减少无关信息的干扰;对于SEO专业人士,它可以用来优化网页结构...
这个开源项目,正如其标题“JAVA源码文本-boilerpipe_source_code”所示,提供了文本提取的源代码,对于需要处理大量网页内容的应用程序,如搜索引擎、新闻聚合器或信息提取系统,是非常有价值的。 Boilerpipe的...
该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以针对个别问题设置轻松扩展。 提取内容非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息)并且通常非常准确。 Boilerpipe 是一个由...
该库已经为常见任务提供了特定的策略(例如,新闻文章提取),并且还可以针对单个问题设置轻松进行扩展。 提取内容的速度非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息),并且通常非常准确。 安装...
5. **API**: Boilerpipe提供了一个简单易用的Java API,开发者可以轻松地在自己的应用程序中集成正文提取功能。 6. **Performance**: 由于Boilerpipe的设计考虑了效率,因此它在处理大量网页时表现出色,适合批量...
3. **Boilerpipe**:Boilerpipe库是一个高效的网页内容提取工具,它通过预定义的策略(称为“提取器”)分析HTML文档,找出主要内容并忽略诸如广告、导航菜单等非正文部分。这对于搜索引擎优化(SEO)、新闻聚合或...
本项目以在线新闻网站的标题为数据源,利用多种技术手段进行数据提取、处理和展示,旨在揭示隐藏在海量信息中的犯罪趋势和热点区域。 首先,项目采用PHP作为主要的后端编程语言,它在处理Web应用程序和数据交互方面...