`
yuhai.china
  • 浏览: 161646 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

利用lucene,nekohtml,为rss新闻建立索引

阅读更多
import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

import javax.swing.text.html.HTML.Tag;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.apache.xerces.impl.xpath.XPath;

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.w3c.dom.Text;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;

import com.sun.syndication.feed.synd.SyndCategory;
import com.sun.syndication.feed.synd.SyndContent;
import com.sun.syndication.feed.synd.SyndEnclosure;
import com.sun.syndication.feed.synd.SyndEntry;
import com.sun.syndication.feed.synd.SyndFeed;
import com.sun.syndication.io.SyndFeedInput;
import com.sun.syndication.io.XmlReader;

import org.cyberneko.html.parsers.DOMParser;

public class TestParse {

	public void parseRss() {
		ArrayList<String> feeds = new ArrayList<String>();
		feeds.add("http://news.baidu.com/n?cmd=1&class=civilnews&tn=rss&sub=0");
		feeds.add("http://news.baidu.com/n?cmd=1&class=rwdt&tn=rss&sub=0");
		feeds.add("http://news.baidu.com/n?cmd=1&class=mil&tn=rss&sub=0");
		feeds.add("http://news.baidu.com/n?cmd=1&class=finannews&tn=rss&sub=0");
		feeds.add("http://rss.sina.com.cn/news/marquee/ddt.xml");
		try {
			IndexWriter indexwriter = new IndexWriter(FSDirectory
					.open(new File("d://htmls")), new SmartChineseAnalyzer(
					Version.LUCENE_29), true, MaxFieldLength.UNLIMITED);

			for (String rss : feeds) {
				URL url = new URL(rss);
				// 读取Rss源
				XmlReader reader = new XmlReader(url);
				System.out.println("Rss源的编码格式为:" + reader.getEncoding());
				SyndFeedInput input = new SyndFeedInput();
				// 得到SyndFeed对象,即得到Rss源里的所有信息
				SyndFeed feed = input.build(reader);
				// 得到Rss新闻中子项列表
				List entries = feed.getEntries();
				// 循环得到每个子项信息
				for (int i = 0; i < entries.size(); i++) {
					org.apache.lucene.document.Document doc = new Document();
					SyndEntry entry = (SyndEntry) entries.get(i);
					// 标题、连接地址、标题简介、时间是一个Rss源项最基本的组成部分
					System.out.println("标题:" + entry.getTitle());
					org.apache.lucene.document.Field titleField = new Field(
							"title", entry.getTitle(), Store.YES,
							Index.ANALYZED);
					doc.add(titleField);
					System.out.println("连接地址:" + entry.getLink());
					Field urlField = new Field("url", entry.getLink(),
							Store.YES, Index.NO);
					doc.add(urlField);
					try {
						String content = getContentByNeko(entry.getLink(), reader
								.getEncoding());
						System.out.println(content);
						Field contentField = new Field("content", content,
								Store.YES, Index.ANALYZED);
						doc.add(contentField);
					} catch (Exception e) {
						e.printStackTrace();
					}
					SyndContent description = entry.getDescription();
					Field desField = new Field("description", description
							.getValue(), Store.YES, Index.ANALYZED);
					doc.add(desField);
					// System.out.println("标题简介:" + description.getValue());
					// System.out.println("发布时间:" + entry.getPublishedDate());
					indexwriter.addDocument(doc);

				}
			}
			indexwriter.optimize();
			indexwriter.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	private String getContent(String url, String encoding) {
		// TODO Auto-generated method stub

		try {

			Parser parser = new Parser(url);
			parser.setEncoding(encoding);
			// TextExtractingVisitor visitor = new TextExtractingVisitor();
			// visitor.visitStringNode(TAG.);
			// parser.visitAllNodesWith(visitor);
			// return visitor.getExtractedText();

			// NodeList nodes = parser.extractAllNodesThatMatch(new
			// NodeClassFilter(TextNode.class));
			NodeList nodes = parser
					.extractAllNodesThatMatch(new NodeClassFilter(
							org.htmlparser.tags.ParagraphTag.class));
			if (nodes == null)
				return "";
			StringBuffer sb = new StringBuffer();
			for (int i = 0; i < nodes.size(); i++) {
				org.htmlparser.nodes.TagNode textnode = (TagNode) nodes
						.elementAt(i);
				String line = textnode.toPlainTextString().trim();
				/*
				 * if (line.equals("")) continue; boolean ischinese=false; int
				 * count=0; for(int idx=0;idx<line.length();idx++){ char u =
				 * line.charAt(idx); if((u>='\u4E00' && u<='\u9FA5') ||
				 * (u>='\uF900'&& u<='\uFA2D')){ count++; } }
				 * if(count>line.length()0.1)
				 */
				sb.append(line);
			}
			// sb=delTag("script",sb);
			return sb.toString();
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return null;
	}

	public static void main(String[] args) {
		new TestParse().parseRss();
	}

	private String getContentByNeko(String url, String encoding) {
		StringBuilder sb = new StringBuilder();
		DOMParser parser = new DOMParser();
		
		try {
			parser.setFeature("http://xml.org/sax/features/namespaces", false);
			BufferedReader in = new BufferedReader(new InputStreamReader(
					new URL(url).openStream(), encoding));
			parser.parse(new InputSource(in));
			in.close();
			org.w3c.dom.Document doc = parser.getDocument();
			org.w3c.dom.NodeList products = org.apache.xpath.XPathAPI
					.selectNodeList(doc, "//P");
			org.w3c.dom.Node node = null;
			for (int i = 0; i < products.getLength(); i++) {
				node = products.item(i);
				System.out.println(i + ":\n" + node.getTextContent());
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

		return sb.toString();
	}
}

分享到:
评论

相关推荐

    搜索引擎核心技术与实现

    - **全文索引结构与Lucene实现**:阐述了如何构建高效的全文索引,并利用Lucene这一强大的索引库进行实现。 - **搜索用户界面**:设计用户友好的查询界面,提升用户体验。 - **计算框架**:讨论了处理大规模数据...

    高清彩版 自己动手写搜索引擎

    - **4.1.6 正文提取的工具NekoHTML**:使用NekoHTML进行正文提取。 - **4.1.7 正文提取**:综合运用各种工具和技术提取网页正文。 - **4.2 从非HTML文件中提取文本**:涵盖TEXT、PDF、Word、Rtf、Excel、...

    搜索引擎开发培训课程提纲PPT学习教案.pptx

    20. **语义搜索**:通过建立语义词库和同义词索引库,搜索引擎可以理解更复杂的查询意图,提供更准确的搜索结果。 以上是搜索引擎开发课程的主要知识点,通过深入学习和实践,可以构建一个功能完善的搜索引擎系统。

    智能家居_物联网_环境监控_多功能应用系统_1741777957.zip

    人脸识别项目实战

    PLC热反应炉仿真程序和报告 ,PLC; 热反应炉; 仿真程序; 报告,PLC热反应炉仿真程序报告

    PLC热反应炉仿真程序和报告 ,PLC; 热反应炉; 仿真程序; 报告,PLC热反应炉仿真程序报告

    C++函数全解析:从基础入门到高级特性的编程指南

    内容概要:本文详细介绍了 C++ 函数的基础概念及其实战技巧。内容涵盖了函数的基本结构(定义、声明、调用)、多种参数传递方式(值传递、引用传递、指针传递),各类函数类型(无参无返、有参无返、无参有返、有参有返),以及高级特性(函数重载、函数模板、递归函数)。此外,通过实际案例展示了函数的应用,如统计数组元素频次和实现冒泡排序算法。最后,总结了C++函数的重要性及未来的拓展方向。 适合人群:有一定编程基础的程序员,特别是想要深入了解C++编程特性的开发人员。 使用场景及目标:① 学习C++中函数的定义与调用,掌握参数传递方式;② 掌握不同类型的C++函数及其应用场景;③ 深入理解函数重载、函数模板和递归函数的高级特性;④ 提升实际编程能力,通过实例强化所学知识。 其他说明:文章以循序渐进的方式讲解C++函数的相关知识点,并提供了实际编码练习帮助理解。阅读过程中应当边思考边实践,动手实验有助于更好地吸收知识点。

    `计算机视觉_Python_PyQt5_Opencv_综合图像处理与识别跟踪系统`.zip

    人脸识别项目实战

    Ultra Ethernet Consortium规范介绍与高性能AI网络优化

    内容概要:本文主要介绍了Ultra Ethernet Consortium(UEC)提出的下一代超高性能计算(HPC)和人工智能(AI)网络解决方案及其关键技术创新。文中指出,现代AI应用如大型语言模型(GPT系列)以及HPC对集群性能提出了更高需求。为了满足这一挑战,未来基于超乙太网络的新规格将采用包喷射传输、灵活数据报排序和改进型流量控制等机制来提高尾部延迟性能和整个通信系统的稳定度。同时UEC也在研究支持高效远程直接内存访问的新一代协议,确保能更好地利用现成以太网硬件设施的同时还增强了安全性。 适合人群:网络架构师、数据中心管理员、高性能运算从业人员及相关科研人员。 使用场景及目标:①为构建高效能的深度学习模型训练平台提供理论指导和技术路线;②帮助企业选择最合适的网络技术和优化现有IT基础设施;③推动整个行业内关于大规模分布式系统网络层面上的设计创新。 阅读建议:本文档重点在于展示UEC如何解决目前RDMA/RoCE所面临的问题并提出了一套全新的设计理念用于未来AI和HPC环境下的通信效率提升。在阅读时需要注意理解作者对于当前网络瓶颈分析背后的原因以及新设计方案所能带来的具体好处

    (参考GUI)MATLAB道路桥梁裂缝检测.zip

    (参考GUI)MATLAB道路桥梁裂缝检测.zip

    pygeos-0.14.0-cp311-cp311-win-amd64.whl

    pygeos-0.14.0-cp311-cp311-win_amd64.whl

    微信小程序_人脸识别_克隆安装_社交娱乐用途_1741777709.zip

    人脸识别项目实战

    基于Matlab的模拟光子晶体光纤中的电磁波传播特性 对模式场的分布和有效折射率的计算 模型使用有限差分时域(FDTD)方法来求解光波在PCF中的传播模式 定义物理参数、光纤材料参数、光波参数、PC

    基于Matlab的模拟光子晶体光纤中的电磁波传播特性 对模式场的分布和有效折射率的计算 模型使用有限差分时域(FDTD)方法来求解光波在PCF中的传播模式 定义物理参数、光纤材料参数、光波参数、PCF参数及几何结构等参数 有限差分时域(FDTD)方法:这是一种数值模拟方法,用于求解麦克斯韦方程,模拟电磁波在不同介质中的传播 特征值问题求解:使用eigs函数求解矩阵的特征值问题,以确定光波的传播模式和有效折射率 模式场分布的可视化:通过绘制模式场的分布图,直观地展示光波在PCF中的传播特性 程序已调通,可直接运行 ,基于Matlab模拟; 光子晶体光纤; 电磁波传播特性; 模式场分布; 有效折射率计算; 有限差分时域(FDTD)方法; 物理参数定义; 几何结构参数; 特征值问题求解; 程序运行。,基于Matlab的PCF电磁波传播模拟与特性分析

    知识图谱与大模型融合实践研究报告:技术路径、挑战及行业应用实例分析

    内容概要:《知识图谱与大模型融合实践研究报告》详细探讨了知识图谱和大模型在企业级落地应用的现状、面临的挑战及融合发展的潜力。首先,介绍了知识图谱与大模型的基本概念和发展历史,并对比分析了两者的优点和缺点,随后重点讨论了两者结合的可行性和带来的具体收益。接下来,报告详细讲解了两者融合的技术路径、关键技术及系统评估方法,并通过多个行业实践案例展示了融合的实际成效。最后提出了对未来的展望及相应的政策建议。 适合人群:对人工智能技术和其应用有兴趣的企业技术人员、研究人员及政策制定者。 使用场景及目标:①帮助企业理解知识图谱与大模型融合的关键技术和实际应用场景;②指导企业在实际应用中解决技术难题,优化系统性能;③推动相关领域技术的进步和发展,为政府决策提供理论依据。 其他说明:报告不仅强调了技术和应用场景的重要性,还关注了安全性和法律法规方面的要求,鼓励各界积极参与到这项新兴技术的研究和开发当中。

    (参考GUI)MATLAB BP神经网络的火焰识别.zip

    神经网络火焰识别,神经网络火焰识别,神经网络火焰识别,神经网络火焰识别,神经网络火焰识别

    人脸识别_实时_ArcFace_多路识别技术_JavaScr_1741771263.zip

    人脸识别项目实战

    telepathy-farstream-0.6.0-5.el7.x64-86.rpm.tar.gz

    1、文件内容:telepathy-farstream-0.6.0-5.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/telepathy-farstream-0.6.0-5.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持:公众号禅静编程坊

    基于Springboot框架的购物推荐网站的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    本东大每日推购物推荐网站管理员和用户两个角色。管理员功能有,个人中心,用户管理,商品类型管理,商品信息管理,商品销售排行榜管理,系统管理,订单管理。 用户功能有,个人中心,查看商品,查看购物资讯,购买商品,查看订单,我的收藏,商品评论。因而具有一定的实用性。 本站是一个B/S模式系统,采用Spring Boot框架作为开发技术,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得东大每日推购物推荐网站管理工作系统化、规范化。 关键词:东大每日推购物推荐网站;Spring Boot框架;MYSQL数据库 东大每日推购物推荐网站的设计与实现 1 1系统概述 1 1.1 研究背景 1 1.2研究目的 1 1.3系统设计思想 1 2相关技术 3 2.1 MYSQL数据库 3 2.2 B/S结构 3 2.3 Spring Boot框架简介 4 3系统分析 4 3.1可行性分析 4 3.1.1技术可行性 5 3.1.2经济可行性 5 3.1.3操作可行性 5 3.2系统性能分析 5 3.2.1 系统安全性 5 3.2.2 数据完整性 6 3.3系统界面

    使用C语言编程设计实现的平衡二叉树的源代码

    二叉树实现。平衡二叉树(Balanced Binary Tree)是一种特殊的二叉树,其特点是树的高度(depth)保持在一个相对较小的范围内,以确保在进行插入、删除和查找等操作时能够在对数时间内完成。平衡二叉树的主要目的是提高二叉树的操作效率,避免由于不平衡而导致的最坏情况(例如,形成链表的情况)。本资源是使用C语言编程设计实现的平衡二叉树的源代码。

    基于扩张状态观测器eso扰动补偿和权重因子调节的电流预测控制,相比传统方法,增加了参数鲁棒性 降低电流脉动,和误差 基于扩张状态观测器eso补偿的三矢量模型预测控制 ,基于扩张状态观测器; 扰动补

    基于扩张状态观测器eso扰动补偿和权重因子调节的电流预测控制,相比传统方法,增加了参数鲁棒性 降低电流脉动,和误差 基于扩张状态观测器eso补偿的三矢量模型预测控制 ,基于扩张状态观测器; 扰动补偿; 权重因子调节; 电流预测控制; 参数鲁棒性; 电流脉动降低; 误差降低; 三矢量模型预测控制,基于鲁棒性增强和扰动补偿的电流预测控制方法

Global site tag (gtag.js) - Google Analytics