新闻正文提取之joyhtml - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1247114 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

新闻正文提取之joyhtml

博客分类：

Spider

阅读更多

joyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。

环境描述：

jdk1.6

joyhtml-0.2.2

提取新闻正文demo代码如下：

public static void main(String[] args) throws Exception {
	DOMParser parser = new DOMParser();
	String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";
	parser.parse(new InputSource(new URL(url).openStream()));
	Document doc = parser.getDocument();
	TextExtractor extractor = new TextExtractor(doc);
	String str = extractor.extract();
	System.out.println(str);

}

依赖的lib参见附件

lib.rar (1.8 MB)
下载次数: 27

4
顶

0
踩

分享到：

新闻正文提取之boilerpipe | storm平台之概述

2013-10-11 16:49
浏览 2186
评论(2)
分类:开源软件
查看更多

评论

2 楼小网客 2013-10-12

he19920226he 写道

The element type "meta" must be terminated by the matching end-tag "</meta>". 楼主，这个错误怎么解决！！

没有报这个错吧？
import org.cyberneko.html.parsers.DOMParser;
import org.joy.analyzer.html.TextExtractor;
import org.w3c.dom.Document;
import org.xml.sax.InputSource;

1 楼 he19920226he 2013-10-12

The element type "meta" must be terminated by the matching end-tag "</meta>". 楼主，这个错误怎么解决！！

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

新闻正文提取之boilerpipe: 【标题】：“新闻正文提取之boilerpipe” 【描述】：Boilerpipe是一个Java库，专门用于从HTML文档中高效地提取主要文本内容，即新闻正文。它是一种数据抽取工具，设计用于处理大量网页，目的是快速准确地识别并提取...

一个动态新闻网页正文提取的例子菜鸟级: 在提取新闻正文时，我们可能需要编写一系列的模式来匹配新闻标题、作者、日期、正文开头和结尾等特征。例如，我们可以用`<div class="postcontent">.*?</div>`这样的正则表达式来尝试匹配正文内容，其中`...

易语言正文提取算法,成功率90%.rar: 在信息爆炸的时代，互联网上存在着海量的网页数据，如何高效准确地提取网页的正文内容成为了一个重要的技术难题，尤其是在SEO（搜索引擎优化）领域。SEO技术通过优化网站，提高网站在搜索引擎中的排名，吸引更多的...

基于HTML和Python的通用新闻正文提取工具源码设计: 该项目是一款基于HTML和Python开发的通用新闻正文提取工具源码，包含138个文件，包括71个HTML文件、32个PNG图片、18个Python源文件、4个Markdown文档、2个文本文件以及其他必要配置文件。该工具旨在高效地从新闻页面...

论文研究-基于FFT的网页正文提取算法研究与实现.pdf: 根据提供的文件内容，以下是对论文研究主题“基于FFT的网页正文提取算法研究与实现”的知识点详细说明。知识点一：快速傅里叶变换（Fast Fourier Transform, FFT） FFT是一种高效计算离散傅里叶变换（Discrete ...

Html网页正文提取 Html2Article.zip: .NET平台下，一个高效的从Html中提取正文的工具。正文提取采用了基于文本密度的提取算法，支持从压缩的Html文档中提取正文，每个页面平均提取时间为30ms，正确率到95%以上。... 标签：网页提取网页正文提取

Python语言版基于通用论坛的正文提取: 本项目专注于"Python语言版基于通用论坛的正文提取"，它提供了从论坛帖子中抽取核心内容的方法，这对于分析用户讨论、情感分析、话题建模等应用具有极大的价值。首先，我们需要了解"通用论坛"这一概念。通用论坛是...

基于视觉特征的网页正文提取方法研究: ### 基于视觉特征的网页正文提取方法研究 #### 概述随着互联网的快速发展，网络信息量呈爆炸式增长，人们面对海量信息时，更需要高效地筛选出所需内容。然而，网页中通常包含了大量非正文信息，如导航链接、广告...

基于标记窗的网页正文信息提取方法: ### 基于标记窗的网页正文信息提取方法 #### 摘要及背景本文提出了一种基于标记窗的网页正文信息提取方法，旨在解决非Table结构网页的正文提取问题。传统上，网页信息抽取（Web Information Extraction, Web IE）...

通用论坛正文提取: 同时，网页的正文信息通常淹没在大量的广告、图标、链接等“噪音”元素中，需要有效去除无关标签以提取目标文本。针对这些问题，研究者设计了基于文本密度和EDA（Exploratory Data Analysis，探索性数据分析）算法...

采用长短期记忆网络的深度学习方法进行网页正文提取.pdf: 针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题，文章提出了一种基于长短期记忆网络（LSTM）的深度学习正文提取方法。这种方法通过遍历HTML代码的文档对象模型（DOM）树，使用...

基于文本及符号密度的网页正文提取方法.7z: 在本文中，我们提出基于网页文本密度与符号密度对网页进行正文内容提取，这是一种快速，准确通用的网页提取算法，而且还可以保留原始结构。通过与现有的一些算法对比，可以体现该算法的精确度，同时该算法可以较好...

利用中文标点实现正文提取: 正文提取是自然语言处理（NLP）领域的一个关键任务，主要目标是从文本中抽取出具有实质意义的内容，例如新闻报道的主体、论文的核心观点或网页的主要信息。在处理中文文本时，由于中文标点符号的独特性，它们在正文...

基于DOM-TREE网页正文提取方法: 利用DOM-TREE模型对网页进行表示对原始网页进行修正缺省标签的补充等利用网页正文提取方法对网页进行正文提取，去除网页中的噪声信息，提取出网页中的正文、相关超链接

基于深度学习和CRF的新闻文章的观点提取.pdf: 但是，传统的CRF模型存在一些不足之处，例如无法充分考虑上下文信息和句法规则，因此本文提出了一种改进型CRF模型，把上下文信息、句法规则和意见词汇综合到CRF模型中，进而改善观点中提取情感词的准确度。...

IR.rar_正文_正文提取_爬虫 c: "IR.rar_正文_正文提取_爬虫 c"这个标题暗示了这是一个关于爬虫技术的资源包，特别关注如何从抓取的数据中提取正文内容。"正文提取"是爬虫后处理阶段的关键步骤，因为通常网页中的信息混杂着HTML标签、广告、导航等...

基于标记窗的网页正文提取方法: ### 基于标记窗的网页正文提取方法详解 #### 一、引言随着互联网技术的迅猛发展，网络上积累了海量的信息资源。其中，网页是互联网信息的主要载体之一。然而，网页内容往往混杂着广告、导航条、版权信息等非主要...

Global site tag (gtag.js) - Google Analytics