使用Lucene进行全文检索---得到有效的内容

博客分类：

Lucene

在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如Html,PDF,Word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如Html的内容,一般我们不需要对Html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从Html内容中解析出我们所需要的内容.对于PDF,Word文档,也是类似的要求. 总之,我们只需要从内容中提取出我们需要的文本来建立索引,这样用户就能搜索到需要的内容,然后访问对应的资源即可. Lucene本身带的例子中有一个解析Html的代码,不过不是纯JAVA的,所以在网上我又找到了另外一个Html解析器,网址如下:http ...

2007-09-27 18:02
浏览 1331
评论(0)

lucene-2.0.0的基本应用

博客分类：

Lucene

lucene Bean Spring Apache

首先肯定是建立索引了啊 public void creatIndex() { File indexDir = new File(getPathIndex()); try { List<Article> listArticle = getArticleDao().search(null, null,null, null, null, null, null, null, new Boolean(true)); for (int i = 0; i < listArticle.size(); i++) { Document doc = new Document(); Ar ...

2007-09-27 18:00
浏览 1289
评论(0)

Lucene-2.0学习文档

博客分类：

Lucene

lucene 搜索引擎 C C++C#

Lucene-2.0学习文档 Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大，api也很简单。总得来说用Lucene来进行建立和搜索和操作数据库是差不多的，Document可以看作是数据库的一行记录，Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。值得一提的是：2006年6月1号Lucene2.0发布，它与以前广泛应用和介绍的Lucene 1.4.3并不兼容。有了很大的改进和优化，这里只介绍的是Lucene 2.0。 Lucene2.0的下载地址是http://apache.justdn.org/ ...

2007-09-27 17:58
浏览 1176
评论(1)

lucene搜索引擎技术的分析与整理

博客分类：

Lucene

搜索引擎 lucene 数据结构活动

4. Lucene文档结构 Lucene中最基础的概念是索引（index），文档（document．，域（field）和项（term）。索引包含了一个文档的序列。 · 文档是一些域的序列。 · 域是一些项的序列。 · 项就是一个字串。存在于不同域中的同一个 ...

2007-09-27 17:56
浏览 2588
评论(0)

实战 Lucene

博客分类：

Lucene

lucene 搜索引擎 Apache 全文检索 Eclipse

文首先介绍了Lucene的一些基本概念，然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。 Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene 的，比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引，所以你只要能把你要索引的数据格式转化的文本的，Lucene ...

2007-09-27 17:56
浏览 953
评论(0)

Lucene 中文分词的 highlight 显示

博客分类：

Lucene

lucene F#

1 、问题的来源增加分词以后结果的准确度提高了，但是用户反映返回结果的速度很慢。原因是， Lucene 做每一篇文档的相关关键词的高亮显示时，在运行时执行了很多遍的分词操作。这样降低了性能。 2 、解决方法在 Lucene1.4.3 版本中的一个新功能可以解决这个问题。 Term Vector 现在支持保存 Token.getPositionIncrement() 和 Token.startOffset() 以及 Token.endOffset() 信息。利用 Lucene 中新增加的 Token 信息的保存结果以后，就不需要为了高亮显示而在运行时解析每篇文档。通过 Field 方法 ...

2007-09-27 17:55
浏览 1505
评论(0)

使用Lucene进行全文检索---处理索引

博客分类：

Lucene

全文检索 lucene HTML .net 配置管理

http://www.jscud.com 转载请注明来源/作者关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE Lucene是一个全文检索的引擎,目前有Java和.Net 等几个版本.Java版本的网址是http://lucene.apache.org.相关的一个项目是车东的WebLucene: http://sourceforge.net/projects/weblucene. 首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象 ...

2007-09-27 17:53
浏览 1393
评论(0)

深入 Lucene 索引机制

博客分类：

Lucene

lucene C C#C++Apache

架构概览图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档，HTML 解析器会做一些预处理的工作，比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容，接着 Lucene 的分词器(Analyzer)从文本内容中提取出索引项以及相关信息，比如索引项的出现频率。接着 Lucene 的分词器把这些信息写到索引文件中。图一：Lucene 索引机制架构 420){this.resized=true;this.style.width=420;}" border=0 resized="t ...

2007-09-27 17:52
浏览 1115
评论(0)

几个免费的中文分词模块

博客分类：

Lucene

ASP.net ASP 搜索引擎 VB VB.NET

一、什么是中文分词众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子“I am a student”，用中文则为：“我是一个学生”。计算机可以� ...

2007-09-27 17:50
浏览 4947
评论(0)

Lucene站点推荐

博客分类：

Lucene

lucene ASP.net 全文检索 ASP Web

地址:http://www.lucene.com 简介：Ramblings about Lucene, Nutch, and other stuff. 摘要: I'm a primary developer of the Lucene and Nutch open source search projects. Lot's of folks think good open-source desktop search can already be easily implemented with tools like Lucene. But desktop search has ...

2007-09-27 17:48
浏览 1331
评论(0)

Lucene中文分词组件 JE-Analysis 1.4.0

博客分类：

Lucene

lucene Apache 算法 thread

本站申明：该组件免费安装使用传播，无限制商业应用，但暂不开源，也不提供任何保证分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平运行环境： Lucene 1.9+ 内存消耗： 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能 ...

2007-09-27 17:45
浏览 5163
评论(1)

Hibernate/Spring/Struts架构使用OpenSessionInView的

博客分类：

struts+spring+hibernate

Spring Struts Hibernate Web XML

今天有一个朋友问了我一个问题，他使用的是Hibernate/Spring/Struts架构，配置使用Spring的OpenSessionInView Filter，但是发现不生效，lazy的集合属性在页面访问的时候仍然报session已经关闭的错误。我和他一起检查了所有的配置和相关的代码，但是没有发现任何问题。经过调试发现，应用程序使用的Session和OpenSessionInView Filter打开的Session不是同一个，所以OpenSessionInView模式没有生效，但是为什么他们不使用同一个Session呢？检查了一遍Spring的相关源代码，发现了问题的根源：通常在 ...

2007-09-27 17:03
浏览 1980
评论(3)

Open Session In View探讨

博客分类：

struts+spring+hibernate

Hibernate Bean Spring Web DAO

在没有使用Spring提供的Open Session In View情况下，因需要在service(or Dao)层里把session关闭，所以lazy loading 为true的话，要在应用层内把关系集合都初始化，如 company.getEmployees()，否则Hibernate抛session already closed Exception; Open Session In V ...

2007-09-27 17:02
浏览 898
评论(0)

详解Hibernate配置文件中映射元素

博客分类：

Hibernate

Hibernate Java SQL MySQL XML

配置文件中映射元素详解　　对象关系的映射是用一个XML文档来说明的。映射文档可以使用工具来生成，如XDoclet，Middlegen和AndroMDA等。下面从一个映射的例子开始讲解映射元素，映射文件的代码如下。＜?xml version="1.0"?＞＜!-- 所有的XML映射文件都需要定义如下所示的DOCTYPE。 Hibernate会先在它的类路径（classptah）中搜索DTD文件。 --＞＜!DOCTYPE hibernate-mapping PUBLIC "-//Hibernate/Hibernate Mapping D ...

2007-09-27 16:09
浏览 1369
评论(0)

Java开源项目Hibernate包作用详

博客分类：

Hibernate

Hibernate Java 项目管理 log4j Apache

Hibernate一共包括了23个jar包，令人眼花缭乱。本文将详细讲解Hibernate每个jar包的作用，便于你在应用中根据自己的需要进行取舍。　　　　下载Hibernate，例如2.0.3稳定版本，解压缩，可以看到一个hibernate2.jar和lib目录下有22个jar包：　　　　hibernate2.jar: 　　Hibernate的库，没有什么可说的，必须使用的jar包　　　　cglib-asm.jar: 　　CGLIB库，Hibernate用它来实现PO字节码的动态生成，非常核心的库，必须使用的jar包　　　　dom4j.jar: 　　dom4j是一个Java的 ...

2007-09-27 16:08
浏览 908
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用Lucene进行全文检索---得到有效的内容

lucene-2.0.0的基本应用

Lucene-2.0学习文档

lucene搜索引擎技术的分析与整理

实战 Lucene

Lucene 中文分词的 highlight 显示

使用Lucene进行全文检索---处理索引

深入 Lucene 索引机制

几个免费的中文分词模块

Lucene站点推荐

Lucene中文分词组件 JE-Analysis 1.4.0

Hibernate/Spring/Struts架构使用OpenSessionInView的

Open Session In View探讨

详解Hibernate配置文件中映射元素

Java开源项目Hibernate包作用详

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>