`
yuhai.china
  • 浏览: 160137 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

利用lucene,nekohtml,为rss新闻建立索引

阅读更多
import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

import javax.swing.text.html.HTML.Tag;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.apache.xerces.impl.xpath.XPath;

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.w3c.dom.Text;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;

import com.sun.syndication.feed.synd.SyndCategory;
import com.sun.syndication.feed.synd.SyndContent;
import com.sun.syndication.feed.synd.SyndEnclosure;
import com.sun.syndication.feed.synd.SyndEntry;
import com.sun.syndication.feed.synd.SyndFeed;
import com.sun.syndication.io.SyndFeedInput;
import com.sun.syndication.io.XmlReader;

import org.cyberneko.html.parsers.DOMParser;

public class TestParse {

	public void parseRss() {
		ArrayList<String> feeds = new ArrayList<String>();
		feeds.add("http://news.baidu.com/n?cmd=1&class=civilnews&tn=rss&sub=0");
		feeds.add("http://news.baidu.com/n?cmd=1&class=rwdt&tn=rss&sub=0");
		feeds.add("http://news.baidu.com/n?cmd=1&class=mil&tn=rss&sub=0");
		feeds.add("http://news.baidu.com/n?cmd=1&class=finannews&tn=rss&sub=0");
		feeds.add("http://rss.sina.com.cn/news/marquee/ddt.xml");
		try {
			IndexWriter indexwriter = new IndexWriter(FSDirectory
					.open(new File("d://htmls")), new SmartChineseAnalyzer(
					Version.LUCENE_29), true, MaxFieldLength.UNLIMITED);

			for (String rss : feeds) {
				URL url = new URL(rss);
				// 读取Rss源
				XmlReader reader = new XmlReader(url);
				System.out.println("Rss源的编码格式为:" + reader.getEncoding());
				SyndFeedInput input = new SyndFeedInput();
				// 得到SyndFeed对象,即得到Rss源里的所有信息
				SyndFeed feed = input.build(reader);
				// 得到Rss新闻中子项列表
				List entries = feed.getEntries();
				// 循环得到每个子项信息
				for (int i = 0; i < entries.size(); i++) {
					org.apache.lucene.document.Document doc = new Document();
					SyndEntry entry = (SyndEntry) entries.get(i);
					// 标题、连接地址、标题简介、时间是一个Rss源项最基本的组成部分
					System.out.println("标题:" + entry.getTitle());
					org.apache.lucene.document.Field titleField = new Field(
							"title", entry.getTitle(), Store.YES,
							Index.ANALYZED);
					doc.add(titleField);
					System.out.println("连接地址:" + entry.getLink());
					Field urlField = new Field("url", entry.getLink(),
							Store.YES, Index.NO);
					doc.add(urlField);
					try {
						String content = getContentByNeko(entry.getLink(), reader
								.getEncoding());
						System.out.println(content);
						Field contentField = new Field("content", content,
								Store.YES, Index.ANALYZED);
						doc.add(contentField);
					} catch (Exception e) {
						e.printStackTrace();
					}
					SyndContent description = entry.getDescription();
					Field desField = new Field("description", description
							.getValue(), Store.YES, Index.ANALYZED);
					doc.add(desField);
					// System.out.println("标题简介:" + description.getValue());
					// System.out.println("发布时间:" + entry.getPublishedDate());
					indexwriter.addDocument(doc);

				}
			}
			indexwriter.optimize();
			indexwriter.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	private String getContent(String url, String encoding) {
		// TODO Auto-generated method stub

		try {

			Parser parser = new Parser(url);
			parser.setEncoding(encoding);
			// TextExtractingVisitor visitor = new TextExtractingVisitor();
			// visitor.visitStringNode(TAG.);
			// parser.visitAllNodesWith(visitor);
			// return visitor.getExtractedText();

			// NodeList nodes = parser.extractAllNodesThatMatch(new
			// NodeClassFilter(TextNode.class));
			NodeList nodes = parser
					.extractAllNodesThatMatch(new NodeClassFilter(
							org.htmlparser.tags.ParagraphTag.class));
			if (nodes == null)
				return "";
			StringBuffer sb = new StringBuffer();
			for (int i = 0; i < nodes.size(); i++) {
				org.htmlparser.nodes.TagNode textnode = (TagNode) nodes
						.elementAt(i);
				String line = textnode.toPlainTextString().trim();
				/*
				 * if (line.equals("")) continue; boolean ischinese=false; int
				 * count=0; for(int idx=0;idx<line.length();idx++){ char u =
				 * line.charAt(idx); if((u>='\u4E00' && u<='\u9FA5') ||
				 * (u>='\uF900'&& u<='\uFA2D')){ count++; } }
				 * if(count>line.length()0.1)
				 */
				sb.append(line);
			}
			// sb=delTag("script",sb);
			return sb.toString();
		} catch (ParserException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return null;
	}

	public static void main(String[] args) {
		new TestParse().parseRss();
	}

	private String getContentByNeko(String url, String encoding) {
		StringBuilder sb = new StringBuilder();
		DOMParser parser = new DOMParser();
		
		try {
			parser.setFeature("http://xml.org/sax/features/namespaces", false);
			BufferedReader in = new BufferedReader(new InputStreamReader(
					new URL(url).openStream(), encoding));
			parser.parse(new InputSource(in));
			in.close();
			org.w3c.dom.Document doc = parser.getDocument();
			org.w3c.dom.NodeList products = org.apache.xpath.XPathAPI
					.selectNodeList(doc, "//P");
			org.w3c.dom.Node node = null;
			for (int i = 0; i < products.getLength(); i++) {
				node = products.item(i);
				System.out.println(i + ":\n" + node.getTextContent());
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

		return sb.toString();
	}
}

分享到:
评论

相关推荐

    lucene 对 xml建立索引

    - 在建立索引之前,需要先将XML文档转换为Lucene能够理解的数据格式。 - 本例中采用SAX解析器来进行XML文档的解析,通过重写SAX处理器类的方法(如`startDocument()`、`endDocument()`、`startElement()`等)来...

    Lucene检索文本,建立索引

    在这个场景中,我们将探讨如何利用Lucene来检索文本并建立索引,同时结合Struts框架构建一个Web程序。 首先,**Lucene** 是一个开源的Java库,它提供了完整的搜索功能,包括分词、索引创建、查询解析和结果排序。它...

    利用Lucene.NET建立SQL数据库记录索引文件程序C#源代码(包含数据库结构)

    对初学使用dotlucent作站...利用dotlucene为网站做的索引文件的应用程序。 数据库源是SQL Server,项目是用VS.NET2008开发的。 应用程序界面可以配置数据库链接,生成报告,定时执行增量索引,对单条索引进行更新操作。

    Lucene结合Sql建立索引

    Lucene(这里用到的是Lucene.net版本也成为DotLucene)是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,...

    用Lucene.net对数据库建立索引及搜索

    《使用Lucene.NET对数据库建立索引及搜索》 在信息技术领域,搜索引擎是不可或缺的一部分,尤其是在处理大量数据时。Lucene.NET是一个强大的全文搜索引擎库,它允许开发人员在应用程序中集成高级搜索功能。本文将...

    Lucene结合Sql建立索引Demo源码.rar

    Lucene(这里用到的是Lucene.net版本也成为DotLucene)是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,...

    Lucene结合Sql建立索引Demo源码

    Lucene(这里用到的是Lucene.net版本也成为DotLucene)是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,...

    基于lucene技术的增量索引

    本文将深入探讨如何利用Lucene实现增量索引,这是一种在数据库或文件系统更新时仅对新数据或变化数据进行索引的技术,以降低资源消耗并保持搜索性能。 **1. Lucene基础知识** Lucene首先需要理解的是它的核心概念,...

    用lucene对数据库建立索引及搜索

    **使用Lucene对数据库建立索引及搜索** Lucene是一个高性能、可伸缩的信息检索库,它是Apache软件基金会的顶级项目之一。它提供了一个简单但功能强大的API,用于在各种数据源上创建全文搜索引擎,包括数据库。在本...

    lucene全文检索简单索引和搜索实例

    3. 索引(Index):索引是Lucene的核心,它将原始文本转化为一种可快速搜索的数据结构。通过分词器(Analyzer),将文本分解成单词(Token),然后构建倒排索引(Inverted Index),使得我们可以高效地查找包含特定...

    lucene索引结构原理.docx

    全文检索的关键在于通过建立索引,将原本非结构化的文本数据转化为结构化的表示,使得搜索过程可以高效进行。在Lucene中,这个过程包括分析文本、创建倒排索引等步骤,使得搜索操作从线性时间复杂度转变为对数时间...

    Lucene建立索引

    本工程旨在为初学者提供一个入门Lucene建立索引的实例,帮助理解并掌握这一技术。 **正文:** 1. **Lucene简介** - Lucene是一个高性能、全文本搜索库,适用于Java开发者,可以嵌入到各种应用程序中,创建强大的...

    用LUCENE连击MYSQL建立索引并搜索的JAVA代码。

    创建好`Document`后,将其添加到`IndexWriter`,这样Lucene就会为这些字段建立索引。 当索引构建完成后,我们就可以实现搜索功能了。首先,创建一个`DirectoryReader`来读取已经建立的索引,然后使用`IndexSearcher...

    Lucene之删除索引

    在深入探讨Lucene删除索引这一主题之前,我们先来理解一下Lucene的基本概念。Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发。它提供了高性能、可扩展的搜索和索引功能,广泛应用于各种应用程序中,如...

    lucene与sqlserver数据库实现索引的简单实例

    3. **创建索引**:使用Lucene的`IndexWriter`类,将预处理后的数据转换为Lucene的文档(Document)对象,并添加到索引中。每个文档可以包含多个字段(Field),每个字段对应数据库中的一个列,如标题、内容等。 4. ...

    用Lucene.net对数据库建立索引及搜索.doc.doc

    用Lucene.net对数据库建立索引及搜索

    lucene 4.7.2 Demo

    首先,让我们了解如何利用Lucene 4.7.2创建索引。创建索引是全文检索的基础,它涉及将文本数据结构化为Lucene可以理解和查询的形式。开发者可以通过Analyzer类来处理输入的文本,进行分词、去除停用词等预处理步骤。...

Global site tag (gtag.js) - Google Analytics