新闻正文提取之joyhtml

小网客

浏览: 1250998 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spider

joyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。

环境描述：

jdk1.6

joyhtml-0.2.2

提取新闻正文demo代码如下：

public static void main(String[] args) throws Exception {
	DOMParser parser = new DOMParser();
	String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";
	parser.parse(new InputSource(new URL(url).openStream()));
	Document doc = parser.getDocument();
	TextExtractor extractor = new TextExtractor(doc);
	String str = extractor.extract();
	System.out.println(str);

}

依赖的lib参见附件

lib.rar (1.8 MB)
下载次数: 27

4
顶

0
踩

分享到：

新闻正文提取之boilerpipe | storm平台之概述

2013-10-11 16:49
浏览 2192
评论(2)
分类:开源软件
查看更多

2 楼小网客 2013-10-12

he19920226he 写道

The element type "meta" must be terminated by the matching end-tag "</meta>". 楼主，这个错误怎么解决！！

没有报这个错吧？
import org.cyberneko.html.parsers.DOMParser;
import org.joy.analyzer.html.TextExtractor;
import org.w3c.dom.Document;
import org.xml.sax.InputSource;

1 楼 he19920226he 2013-10-12

The element type "meta" must be terminated by the matching end-tag "</meta>". 楼主，这个错误怎么解决！！

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

pimpinella_3cd_01_0716.pdf: pimpinella_3cd_01_0716

FIB English learning: FIB English learning

linux下 jq 截取json文件信息: X86-jq安装包

[AB PLC例程源码][MMS_046356]SELX.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

大圣挪车小程序1.3.5+前端.zip: 大圣挪车小程序1.3.5 前端

Manus.im 产品及开发团队研究报告.pdf: Manus.im 产品及开发团队研究报告.pdf

[AB PLC例程源码][MMS_044663]Control daisy chain wiring in Fieldbus Foundation.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

sun_3ck_01a_0918.pdf: sun_3ck_01a_0918

支持适用于PERC H330/H730/H730P/H830/H730P系列RAID卡MX/FD33xD/FD33xS控制器的驱动安装指南: 下载 1. 单击“立即下载”，以下载该文件。 2. 出现“文件下载”窗口后，单击“保存”，以将文件保存到硬盘。安装 1. 浏览至文件下载目标位置并双击新下载的文件。 2. 仔细阅读对话窗口中显示的发布信息。 3. 下载并安装对话窗口中标识的任何必备项，然后再继续。 4. 单击“Install”（安装）按钮。 5. 按照其余提示执行更新。安装 1. 将解压的文件复制到可访问Windows的介质。 2. 将系统重新引导至Windows操作系统。 3. 打开“服务器管理器”->“设备管理器”->“存储控制器”，然后单击“PERC控制器”。 5. 单击“更新驱动程序软件”，并按照提示更新驱动程序。 4. 重新引导系统以使更改生效。

硬盘安装器，支持硬盘安装，无需制作U盘PE！: 支持所有操作系统一键安装。

matlab程序代码项目案例：使用 Simulink 进行自适应 MPC 设计: matlab程序代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_044098]1769-ASCII Simultaneous Mode.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

swanson_01_1106.pdf: swanson_01_1106

[AB PLC例程源码][MMS_047811]SAF1 - Store.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_043879]Programming in SFC and ST Language.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

sun_3ck_01_0919.pdf: sun_3ck_01_0919

方言距离数据.岭南学院产业与区域经济研究中心: 各城市方言距离数据-中山大学岭南学院产业与区域经济研究中心方言距离是指两种或多种方言之间的相似程度或差异程度。参考中山大学岭南学院产业与区域经济研究中心的刘毓芸等（2015）文献。他们基于方言树图，并参考《汉语方言大词典》和《中国语言地图集》对方言的划分，将汉语方言从宽泛到具体分为以下几个层级：汉语→方言大区→方言区→方言片。为了量化县与县之间的方言差异，他们采用了一种赋值方法：若它们分属不同方言大区，则距离为3。: 若两个县同属一个方言片，则它们之间的方言距离为0；若两个县属于同一方言区但不同方言片，则距离为1；若它们属于同一方言大区但不同方言区，则距离为2；方言距离是一个反映方言之间相似程度或差异程度的重要指标，它在语音识别、方言研究等领域具有广泛的应用价值。参考文献：[1]刘毓芸, 徐现祥, 肖泽凯. 2015. 劳动力跨方言流动的倒U型模式[J]. 经济研究, 50(10): 134-146+162. 指标语系、语族、方言大区、方言区/语支、方言片/语种、Supergroup、Dialect、group、Sub-dialect、groupPref_1、Pref_2、DiaDist、PrefCode_1、PrefCode_2等等。

基于PCA算法的人脸识别MATLAB源码: 基于PCA算法的人脸识别MATLAB源码

[AB PLC例程源码][MMS_045740]Handling manual movement of axis using an Add On Instruction (AOI), .zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论