基于boilerpipe抽取页面乱码问题解决方式 - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1247063 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

基于boilerpipe抽取页面乱码问题解决方式

博客分类：

DataMining

阅读更多

需求：

基于boilerpipe抽取页面的文本内容，基于url的openStream来获取页面的时候会碰到乱码，解决方式是基于jsoup来获取body的byte流

实现：

jar依赖：

<dependency>
	<groupId>com.syncthemall</groupId>
	<artifactId>boilerpipe</artifactId>
	<version>1.2.2</version>
</dependency>

抽取实现：

private String extractContent(String url) throws Exception {
	InputStream inputStream = new ByteArrayInputStream(getEmptyConnection(
			url).execute().bodyAsBytes());

	TextDocument doc = new BoilerpipeSAXInput(new InputSource(inputStream))
			.getTextDocument();

	BoilerpipeExtractor extractor = CommonExtractors.DEFAULT_EXTRACTOR;
	extractor.process(doc);
	return doc.getContent();
}

0
顶

0
踩

分享到：

ckplayer播放基于RTMP的流媒体 | fckeditor和ckeditor3.5.3在J2ee下的使用

2014-03-21 14:57
浏览 1701
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

正文提取工具boilerpipe: 过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。

新闻正文提取之boilerpipe: 【标题】：“新闻正文提取之boilerpipe” 【描述】：Boilerpipe是一个Java库，专门用于从HTML文档中高效地提取主要文本...通过深入理解其工作原理和应用，开发者可以更好地利用这个工具解决实际问题，提高工作效率。

Python库 | boilerpipe-py3-1.2.0.0.tar.gz: Boilerpipe的核心算法基于模式识别和机器学习。它通过分析HTML结构，识别出常见的网页元素模式，如标题、副标题、段落等，从而确定正文内容。此外，它还具备处理复杂布局和动态生成内容的能力，这在处理现代网页时...

网页正文提取工具boilerpipe1.2bin包: 输入一个url或者string型的网页源码，通过该工具即可得到想要的正文信息，例如提取各大门户网站的新闻，历史，娱乐等的正文信息。网页正文提取工具，这是目前销量最高，提取一个网页正文信息只需要毫秒级的时间消耗...

python-boilerpipe:从 HTML 页面到 Boilerpipe、Boilerplate Removal 和 Fulltext Extraction 的 Python 接口: 的 python 包装器，一个优秀的 Java 库，用于从 HTML 页面中删除样板和全文提取。配置依赖项： jpype 夏代特在构建包时，将自动获取并包含锅炉管道 jar 文件。安装签出代码： git clone ...

boilerpipe-clj:Java Boilerpipe文本提取库周围的简单包装: Boilerpipe文本提取库周围的一个简单包装。伪像 boilerpipe-clj。最新发行使用Leiningen，将其添加到project.clj的依赖项： [io.curtis/boilerpipe-clj " 0.3.0 " ] 用法核心功能-boilerpipe-clj.core Clojure...

boilerpipe:从 HTML 页面中删除样板和全文提取: 该库已经为常见任务（例如：新闻文章提取）提供了特定策略，并且还可以针对个别问题设置轻松扩展。提取内容非常快（毫秒），只需要输入文档（不需要全局或站点级别的信息）并且通常非常准确。 Boilerpipe 是一个由...

JAVA源码文本-boilerpipe_source_code:文本提取源代码。技术文档。Java: 这个库是基于数据驱动的，通过训练有大量标记数据的机器学习模型来识别和分割页面结构。在"boilerpipe_source_code-main"目录下，你将找到Boilerpipe的源代码文件，包括以下几个关键部分： 1. **Filters**：这是...

boilerpipe-1.1.0.jar: java运行依赖jar包

boilerpipe.net: Boilerpipe.Net Boilerpipe.Net是样板库（库的端口。 Boilerpipe.Net库提供了一些算法，用于检测和删除网页主要文本内容周围的多余“杂物”（样板，模板）。该库已经为常见任务提供了特定的策略（例如，新闻...

cl-boilerpipe:从文章和博客文章中提取主要内容: CL-BOILERPIPE基于Java 库，而该库又基于Kohlschütter等人的。这里仅实现最简单的Boilerpipe算法版本。我发现它运作良好。用法给定一个HTML字符串，请调用： (cl-boilerpipe:strip-boilerpipe html) 这将...

Boilerpipe-Coffee:Boilerpipe html 内容提取器到 Coffeescript 的端口: 锅炉管-咖啡Boilerpipe html 内容提取器到 Coffeescript 的端口要求需要'htmlparser2' node.js 模块此外，该示例需要“fs”、“request”和“path”模块构建（合并为一个 javascript 文件）需要coffeescript-concat ...

boilerpipe:从 code.google.compboilerpipe 自动导出: Boilerpipe的工作原理主要基于预定义的过滤器和模式，这些过滤器能够识别HTML文档中的常见结构，如标题、导航栏、侧边栏和广告。通过一系列的步骤，它能够智能地去除这些非正文元素，保留主要的文章内容。以下是一些...

boilerpipe-api:从HTML页面提取主要文章文本: 该API将Java包装到HTTP API中，以从HTML页面提取原始文章文本。用法有两种使用API的方法。您可以传递url或原始html： curl -X POST ...

从HTML文件中抽取正文的简单方案试验结果: 本文将探讨一种简单的方案来实现这个功能，并基于提供的信息进行深入讲解。首先，我们要理解HTML的基本结构。HTML（HyperText Markup Language）是一种标记语言，用于构建网页。它由一系列元素组成，包括标签、...

boilerpipe-ruby:针对在线文章调整的Boilerpipe内容提取算法的纯Ruby实现: 如果您使用的是Jruby，则此解决方案效果很好，但我希望在MRI上使用纯Ruby解决方案。打开Vim-开始编码... 这是系统工作方式的高级。 TLDR 只需使用ArticleExtractor，DefaultExtractor或KeepEverythingExtractor-...

boilerpipe-failed-fork:样板管 2.0: 此外，这从蚂蚁移动到 Maven。除了让它工作和设置 maven 之外，我在这里没有做太多工作。... 转向使用多个模块，这样我就可以有一个用于 nekohtml/xerces，另一个用于 jsoup 告诉Chrome人关于boilerpipe 2.0

derquinse-common-jaxrs-gson-1.0.31.zip: 重新打包的版本可能是为了适应特定的开发环境或解决某些问题。综上所述，这个压缩包包含了一个整合JAX-RS和Gson的组件，以及一个用于从HTML中提取主要文本的Boilerpipe库的源码，这些工具在开发Java Web服务和处理...

高校网络沉迷与防沉迷系统的研究与实现: 摘要：基于教育网流量分析，提出游戏服务商 IP 地址发现机制，包括 Boilerpipe 正文抽取算法以及 Stanford Chinese NLP中文分词算法，通过流量分析技术发现与分析大学生网络沉迷现象的一般方法和计算框架。...

boilerpipe-server:用于解析文章内容的简单 serverbash 脚本: 使用优秀的boilerpipe项目从网页解析文章内容的简单服务器/bash脚本 ./compile_server.sh ./run_server.sh Server is listening on port 6666 # in other window curl " http://mobil.di.se/c.jsp;jsessionid=9A...

Global site tag (gtag.js) - Google Analytics