`
小网客
  • 浏览: 1243956 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

新闻正文提取之joyhtml

 
阅读更多

      joyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。

环境描述:

jdk1.6

joyhtml-0.2.2

 

提取新闻正文demo代码如下:

public static void main(String[] args) throws Exception {
	DOMParser parser = new DOMParser();
	String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";
	parser.parse(new InputSource(new URL(url).openStream()));
	Document doc = parser.getDocument();
	TextExtractor extractor = new TextExtractor(doc);
	String str = extractor.extract();
	System.out.println(str);

}

 

依赖的lib参见附件

  • lib.rar (1.8 MB)
  • 下载次数: 27
4
0
分享到:
评论
2 楼 小网客 2013-10-12  
he19920226he 写道
The element type "meta" must be terminated by the matching end-tag "</meta>".                 楼主,这个错误怎么解决!!

没有报这个错吧?
import org.cyberneko.html.parsers.DOMParser;
import org.joy.analyzer.html.TextExtractor;
import org.w3c.dom.Document;
import org.xml.sax.InputSource;
1 楼 he19920226he 2013-10-12  
The element type "meta" must be terminated by the matching end-tag "</meta>".                 楼主,这个错误怎么解决!!

相关推荐

    新闻正文提取之boilerpipe

    【标题】:“新闻正文提取之boilerpipe” 【描述】:Boilerpipe是一个Java库,专门用于从HTML文档中高效地提取主要文本内容,即新闻正文。它是一种数据抽取工具,设计用于处理大量网页,目的是快速准确地识别并提取...

    一个动态新闻网页正文提取的例子菜鸟级

    在提取新闻正文时,我们可能需要编写一系列的模式来匹配新闻标题、作者、日期、正文开头和结尾等特征。例如,我们可以用`&lt;div class="postcontent"&gt;.*?&lt;/div&gt;`这样的正则表达式来尝试匹配正文内容,其中`...

    易语言正文提取算法,成功率90%.rar

    在信息爆炸的时代,互联网上存在着海量的网页数据,如何高效准确地提取网页的正文内容成为了一个重要的技术难题,尤其是在SEO(搜索引擎优化)领域。SEO技术通过优化网站,提高网站在搜索引擎中的排名,吸引更多的...

    基于HTML和Python的通用新闻正文提取工具源码设计

    该项目是一款基于HTML和Python开发的通用新闻正文提取工具源码,包含138个文件,包括71个HTML文件、32个PNG图片、18个Python源文件、4个Markdown文档、2个文本文件以及其他必要配置文件。该工具旨在高效地从新闻页面...

    论文研究-基于FFT的网页正文提取算法研究与实现.pdf

    根据提供的文件内容,以下是对论文研究主题“基于FFT的网页正文提取算法研究与实现”的知识点详细说明。 知识点一:快速傅里叶变换(Fast Fourier Transform, FFT) FFT是一种高效计算离散傅里叶变换(Discrete ...

    Html网页正文提取 Html2Article.zip

    .NET平台下,一个高效的从Html中提取正文的工具。 正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。... 标签:网页提取 网页正文提取

    网络爬虫之新闻页面自动提取正文

    本项目"网络爬虫之新闻页面自动提取正文"专注于从新闻页面中识别和提取文章的正文内容,以实现高效、精准的数据获取。下面将详细阐述这一过程涉及的主要知识点。 首先,我们要理解网络爬虫的工作原理。爬虫是一个...

    Python语言版基于通用论坛的正文提取

    本项目专注于"Python语言版基于通用论坛的正文提取",它提供了从论坛帖子中抽取核心内容的方法,这对于分析用户讨论、情感分析、话题建模等应用具有极大的价值。 首先,我们需要了解"通用论坛"这一概念。通用论坛是...

    基于视觉特征的网页正文提取方法研究

    ### 基于视觉特征的网页正文提取方法研究 #### 概述 随着互联网的快速发展,网络信息量呈爆炸式增长,人们面对海量信息时,更需要高效地筛选出所需内容。然而,网页中通常包含了大量非正文信息,如导航链接、广告...

    基于标记窗的网页正文信息提取方法

    ### 基于标记窗的网页正文信息提取方法 #### 摘要及背景 本文提出了一种基于标记窗的网页正文信息提取方法,旨在解决非Table结构网页的正文提取问题。传统上,网页信息抽取(Web Information Extraction, Web IE)...

    通用论坛正文提取

    同时,网页的正文信息通常淹没在大量的广告、图标、链接等“噪音”元素中,需要有效去除无关标签以提取目标文本。 针对这些问题,研究者设计了基于文本密度和EDA(Exploratory Data Analysis,探索性数据分析)算法...

    采用长短期记忆网络的深度学习方法进行网页正文提取.pdf

    针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,文章提出了一种基于长短期记忆网络(LSTM)的深度学习正文提取方法。这种方法通过遍历HTML代码的文档对象模型(DOM)树,使用...

    基于文本及符号密度的网页正文提取方法.7z

    在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对 比,可以体现该算法的精确度,同时该算法可以较好...

    利用中文标点实现正文提取

    正文提取是自然语言处理(NLP)领域的一个关键任务,主要目标是从文本中抽取出具有实质意义的内容,例如新闻报道的主体、论文的核心观点或网页的主要信息。在处理中文文本时,由于中文标点符号的独特性,它们在正文...

    基于DOM-TREE网页正文提取方法

    利用DOM-TREE模型对网页进行表示 对原始网页进行修正缺省标签的补充等 利用网页正文提取方法对网页进行正文提取,去除网页中的噪声信息,提取出网页中的正文、相关超链接

    基于深度学习和CRF的新闻文章的观点提取.pdf

    但是,传统的CRF模型存在一些不足之处,例如无法充分考虑上下文信息和句法规则,因此本文提出了一种改进型CRF模型,把上下文信息、句法规则和意见词汇综合到CRF模型中,进而改善观点中提取情感词的准确度。...

    IR.rar_正文_正文提取_爬虫 c

    "IR.rar_正文_正文提取_爬虫 c"这个标题暗示了这是一个关于爬虫技术的资源包,特别关注如何从抓取的数据中提取正文内容。"正文提取"是爬虫后处理阶段的关键步骤,因为通常网页中的信息混杂着HTML标签、广告、导航等...

Global site tag (gtag.js) - Google Analytics