最新文章列表

lucene高亮demo

java 代码 package com.feedsky.lucene;       import java.io.StringReader;       import org.apache.lucene.analysis.Analyzer;    import org.apache.lucene.analysis.TokenStream;    ...
ttitfly 评论(0) 有5183人浏览 2007-07-31 17:19

用lucene对时间索引后搜索的问题。

我的数据量比较大,故后台采用一个线程专用于索引的建立。目前索引库已经在700多M了,估计全部建立完成在1.5G左右。 每一个doc里包括了一个field(sendtime,时间字符串,yyyy-mm-dd hh:MM:ss格式) 在前台web进行搜索时。采用如下代码 /** * sendtime在date1与date2之间的数据 */ if (startTim ...
yinhj 评论(7) 有4299人浏览 2007-07-31 14:48

用lucene 搜索时出现Parser错误,望解!!

出错的信息为: 建立搜索引擎 建立搜索域和分析器 Exception in thread "main" org.apache.lucene.queryParser.ParseException: Encountered "<EOF>" at line 1, column 0. Was expecting one of:     <NOT> ...
fangbiao23 评论(5) 有3178人浏览 2007-07-30 14:07

java 中 Lucene 应用实例 jar 要1.4.3版

Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本 ...
aaa8825121 评论(0) 有2635人浏览 2007-07-28 20:23

dom4j中文问题

学习使用dom4j中,找了网络上的例子开始遇到些问题 1  载了dom4j.zip下来,一般要引入两个jar包,一个自然是dom4j-1.6.1.jar,另外一个是jaxen-1.1-beta-6.jar,不引的话会报一个java.lang.NoClassDefFoundError: org/jaxen/JaxenException 2 网络上找的这个例子简单明了,不过有个中文问题,研究了一下解决了 ...
kirin 评论(2) 有5754人浏览 2007-07-26 18:13

Doug Cutting 访谈录 -- 关于搜索引擎的开发

作为Lucene和Nutch两 大Apach Open Source Project的始创人(其实还有Lucy, Lucene4C 和Hadoop等相关子项目),Doug Cutting 一直为搜索引擎的开发人员所关注。他终于在为Ya ...
zhangljerry 评论(1) 有2021人浏览 2007-07-26 15:40

java io 流 效率

这几天在给公司查询一段代码的效率问题,我之前也大概在javaeye上问过就是关于我blog里 lucene索引文档的pdf,word,xls时的效率问题,今天又查了查感觉还是代码上的问题,于是又改了些代码,发现效率又很大的提高,所以把io 流效率的问题又仔细研究了下,留个笔记 import java.io.*; public class IOTest { pub ...
roger51 评论(2) 有3039人浏览 2007-07-25 22:16

pdf word xls parser 效率

各位好:在javaeye好长时间了,一直在各大网站学习各位的经验很感谢各位,目前我遇到一个关于lucene索引的问题,在国内和国外的网站上找了很久也没找到一个比较满意的解决办法,所以在这里想问问大家,希望有过这方面的经验的朋友给些帮助,最好能有些比较好的代码或可行性建议,我的代码大概如下 import com.messagesolution.message.viewer.util.HtmlDocum ...
roger51 评论(6) 有2491人浏览 2007-07-24 09:45

今天在看<开发自己的搜索引擎>

偶倒是不是因为想看搜索引擎才看这本书的,主要想学习学习Lucene.因为在我们的系统中查询是比较慢的(数据倒是不多).尤其再现在没有一个好的权限的状况下,重要的是解决查询权限带来的数据库开销大的问题.因为系统的权限做的事情比较多,比较细,所以最后拼SQL的时候SQL竟然超长,结果目前的解决方法就是过滤权限做成了存储过程,好多业务逻辑都拿存储过程做了,偶现在想解决的问题就是查询能不能优雅一些? 好前一 ...
jansel 评论(2) 有2381人浏览 2007-07-23 21:42

Lucene+Heritrix开发自己的搜索引擎

Lucene 是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。< ...
O.Lions 评论(0) 有6033人浏览 2007-07-23 10:45

lucene的MultiPhraseQuery

在lucene的search包下面发现一个新的类 MultiPhraseQuery 大致作用,猜测可以实现以下功能: 本来,要实现 "a (b|c|d) e" 这样一个语意的Query ,我猜测需要用 "a b e", "a c e" ,"a d e"三个PhraseQuery 来实现, 现在MultiPhraseQue ...
roki 评论(0) 有5825人浏览 2007-07-22 17:28

Nutch 相关 (三) Nutch的分词的架构

 今天仔细研究了一下Nutch的org.apache.nutch.anlysis包,其中大多的类都是与Nutch在爬行网页时候对网页中的文本分词解 析相关的。Nutch解析文本类的架构得非 ...
fuyangchang 评论(1) 有1983人浏览 2007-06-19 17:36

Nutch 0.8笔记--Google式的搜索引擎实现

    作者:江南白衣    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。    Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。1.Nutch 0.8 的安装与运行nutch 0.7. ...
fuyangchang 评论(0) 有1797人浏览 2007-06-16 16:46

Compass学习文档

Compass学习文档(1)作者:javafishCompass是第一个实现java搜索引擎的开源框架,它是基于 Lucene之上的,提供更简单的搜索引擎API,事务支持,对象到搜索引擎映射(Annotations & XML),Xml到搜索引擎映射,可以和Hibernate,Spring集成,功能非常的强大。如果用Hibernate,Spring做的项目需要搜 索引擎的话,Compass是 ...
fuyangchang 评论(1) 有4098人浏览 2007-06-15 13:49

JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法http://blog.sina.com.cn/u/54c1567b010008vhOFFICE文档使用POI控件,PDF可以使用PDFBOX0.7.3控件,完全支持中文,用XPDF也行,不过感觉PDFBOX比较好,而且作者也在更新。水平有限,万望各位指正 WORD:import org.apache.lucene.docume ...
fuyangchang 评论(0) 有2094人浏览 2007-06-11 14:12

利用Lucene搜索Java源代码

 某些网站允许软件开发社团通过发布开发者指南、白皮书、FAQs【常见问题解答】和源代码以实现信息的共享。随着信息量的增长,和几个开发者贡献出自己的 知识库,于是网站提供搜索引擎来搜索站点上现有的所有信息。虽然这些搜索引擎对文本文件的搜索可以做的很好,但对开发者搜索源代码做了比较严格的限制。搜 索引擎认为源代码就是纯文本文件,因此,在这一点上,与成熟的可以处理大量源文件的工具――grep相比没有什么不 ...
fuyangchang 评论(0) 有3938人浏览 2007-05-30 16:47

Lucene IN ACTION 中文版

 http://book.csdn.net/bookfiles/276/index.html#c1csdn中的 Lucene IN ACTION 中文版网址,可以看到前四章
fuyangchang 评论(0) 有2335人浏览 2007-05-30 13:47

扩展Lucene的索引文件存储

本文主要叙述如何通过引入Commons-VFS项目来扩展Lucene的索引文件存储方式。在阅读本文之前,您必须对Lucene有一定的了解,最好是有编写过Lucene代码。另外文章中所提到的Lucene如果不做特殊说明指的是Lucene的Java版本。 使用过Lucene来做为搜索引擎的朋友知道,Lucene默认的使用文件系统来存储索引文件。一般我们需要指定一个路径做为参数来初始化索引的读写类。例如下 ...
wl1985 评论(0) 有1833人浏览 2007-02-02 01:48

Doug Cutting 访谈录 -- 关于搜索引擎的开发

转自:http://www.blogjava.net/dedian/archive/2006/08/02/doug_cutting_interview.html作为Lucene和Nutch两大Apach Open Source Project的始创人(其实还有Lucy, Lucene4C 和Hadoop等相关子项 ...
stonexu 评论(0) 有887人浏览 2006-08-03 10:10

深入 Lucene 索引机制

Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。 在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene ...
captain 评论(0) 有929人浏览 2006-08-01 15:12

最近博客热门TAG

Apache(33929) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics