需求:
基于boilerpipe抽取页面的文本内容,基于url的openStream来获取页面的时候会碰到乱码,解决方式是基于jsoup来获取body的byte流
实现:
jar依赖:
<dependency> <groupId>com.syncthemall</groupId> <artifactId>boilerpipe</artifactId> <version>1.2.2</version> </dependency>
抽取实现:
private String extractContent(String url) throws Exception { InputStream inputStream = new ByteArrayInputStream(getEmptyConnection( url).execute().bodyAsBytes()); TextDocument doc = new BoilerpipeSAXInput(new InputSource(inputStream)) .getTextDocument(); BoilerpipeExtractor extractor = CommonExtractors.DEFAULT_EXTRACTOR; extractor.process(doc); return doc.getContent(); }
相关推荐
过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。
【标题】:“新闻正文提取之boilerpipe” 【描述】:Boilerpipe是一个Java库,专门用于从HTML文档中高效地提取主要文本...通过深入理解其工作原理和应用,开发者可以更好地利用这个工具解决实际问题,提高工作效率。
Boilerpipe的核心算法基于模式识别和机器学习。它通过分析HTML结构,识别出常见的网页元素模式,如标题、副标题、段落等,从而确定正文内容。此外,它还具备处理复杂布局和动态生成内容的能力,这在处理现代网页时...
输入一个url或者string型的网页源码,通过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。网页正文提取工具,这是目前销量最高,提取一个网页正文信息只需要毫秒级的时间消耗...
的 python 包装器,一个优秀的 Java 库,用于从 HTML 页面中删除样板和全文提取。 配置 依赖项: jpype 夏代特 在构建包时,将自动获取并包含锅炉管道 jar 文件。 安装 签出代码: git clone ...
Boilerpipe文本提取库周围的一个简单包装。 伪像 boilerpipe-clj。 最新发行 使用Leiningen,将其添加到project.clj的依赖项: [io.curtis/boilerpipe-clj " 0.3.0 " ] 用法 核心功能-boilerpipe-clj.core Clojure...
该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以针对个别问题设置轻松扩展。 提取内容非常快(毫秒),只需要输入文档(不需要全局或站点级别的信息)并且通常非常准确。 Boilerpipe 是一个由...
这个库是基于数据驱动的,通过训练有大量标记数据的机器学习模型来识别和分割页面结构。 在"boilerpipe_source_code-main"目录下,你将找到Boilerpipe的源代码文件,包括以下几个关键部分: 1. **Filters**:这是...
java运行依赖jar包
Boilerpipe.Net Boilerpipe.Net是样板库( 库的端口。 Boilerpipe.Net库提供了一些算法,用于检测和删除网页主要文本内容周围的多余“杂物”(样板,模板)。 该库已经为常见任务提供了特定的策略(例如,新闻...
CL-BOILERPIPE基于Java 库,而该库又基于Kohlschütter等人的 。 这里仅实现最简单的Boilerpipe算法版本。 我发现它运作良好。 用法 给定一个HTML字符串,请调用: (cl-boilerpipe:strip-boilerpipe html) 这将...
锅炉管-咖啡Boilerpipe html 内容提取器到 Coffeescript 的端口要求需要'htmlparser2' node.js 模块此外,该示例需要“fs”、“request”和“path”模块构建(合并为一个 javascript 文件)需要coffeescript-concat ...
Boilerpipe的工作原理主要基于预定义的过滤器和模式,这些过滤器能够识别HTML文档中的常见结构,如标题、导航栏、侧边栏和广告。通过一系列的步骤,它能够智能地去除这些非正文元素,保留主要的文章内容。以下是一些...
该API将Java包装到HTTP API中,以从HTML页面提取原始文章文本。 用法 有两种使用API的方法。 您可以传递url或原始html: curl -X POST ...
本文将探讨一种简单的方案来实现这个功能,并基于提供的信息进行深入讲解。 首先,我们要理解HTML的基本结构。HTML(HyperText Markup Language)是一种标记语言,用于构建网页。它由一系列元素组成,包括标签、...
如果您使用的是Jruby,则此解决方案效果很好,但我希望在MRI上使用纯Ruby解决方案。 打开Vim-开始编码... 这是系统工作方式的高级。 TLDR 只需使用ArticleExtractor,DefaultExtractor或KeepEverythingExtractor-...
此外,这从蚂蚁移动到 Maven。 除了让它工作和设置 maven 之外,我在这里没有做太多工作。... 转向使用多个模块,这样我就可以有一个用于 nekohtml/xerces,另一个用于 jsoup 告诉Chrome人关于boilerpipe 2.0
重新打包的版本可能是为了适应特定的开发环境或解决某些问题。 综上所述,这个压缩包包含了一个整合JAX-RS和Gson的组件,以及一个用于从HTML中提取主要文本的Boilerpipe库的源码,这些工具在开发Java Web服务和处理...
摘 要:基于教育网流量分析,提出游戏服务商 IP 地址发现机制,包括 Boilerpipe 正文抽取算法以及 Stanford Chinese NLP中文分词算法,通过流量分析技术发现与分析大学生网络沉迷现象的一般方法和计算框架。...
使用优秀的boilerpipe项目从网页解析文章内容的简单服务器/bash脚本 ./compile_server.sh ./run_server.sh Server is listening on port 6666 # in other window curl " http://mobil.di.se/c.jsp;jsessionid=9A...