`
文章列表
Java自带的字符串hash函数: public int hashCode() { int h = hash; if (h == 0) { int off = offset; char val[] = value; int len = count; for (int i = 0; i < len; i++) { h = 31*h + val[off++]; } hash = h; } ...
  1. 下载 Trac-0.12.1.tar.gz  从  http://trac.edgewall.org/wiki/TracDownload  下载,解压: $ tar xzvf Trac-0.12.1.tar.gz   查看INSTALL文件:  *1)  Python, version >= 2.4.  (Python >= 2.4 ,下面以Python2.7为例,Python3好像有问题,setuptools安装不兼容) * 2)   setuptools, version >= 0.6 * 3) Genshi, version >= 0.6 * ...
1。 编码问题:  MoreLikeThisQuery中的 BooleanQuery bq= (BooleanQuery) mlt.like(new ByteArrayInputStream(likeText.getBytes()));   likeText.getBytes() 这个出的问题,没有指定编码,会自动读取系统默认编码。 在linux下运行java程序,它读取来的系统默认字符集市iso8859-1,想让让它在utf-8下运行,方案:在启动程序时多加上-Dfile.encoding=UTF-8参数     2。查询特定范围内的相似    构造一个BooleanQuery ...
  要做一个跟文章标题相关的新闻,本来想简单做一下,就是把标题用分词处理一下,去除停用词,做个布尔查询,朋友建议lucene有一个 MoreLikeThisQuery,试了一下功能,觉得还可以,贴上示例代码 (MoreLikeThisQuery 在contrib 下的Queryies):   pom文件:   <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schema ...
 源:http://hxraid.iteye.com/blog/634577   首先我们用下面的代码来看看打印标准分词器的运行结果  (在2.9下也可以运行)      class StandardTest{ public static void main(String[] args) throws IOException{ //输入流 StringReader s=new StringReader(new String("I'm a student. these are apples")); //标准分词 ...
一、lucene索引的建立 1.索引文件 .fdt文件:主要保存数据源数据,存储的field的值仅为Document中具有的Store.YES属性的field .fdx文件:记录当前Document在.fdt文件中的位置,以便后面读取时方便 segments文件:通常,在一个完整的索引中 ...
源:http://www.cnblogs.com/bysshijiajia/archive/2008/01/24/1051401.html     1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以 ...
源:http://blog.fulin.org/2010/11/search_solutions_compare.html   一  直接使用 Lucene  ( http://lucene.apache.org ) 说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作 优点:成熟的解决方案,有很多的 ...
源:http://www.cnblogs.com/forfuture1978/archive/2010/11/29/1891476.html   一、总体架构 Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为: http://snaprojects.jira.com/wiki/display/ZOIE/Overview Zoie is a realtime indexing and search s ...
Bobo的主要包的继承关系 1. BrowseService(Bobo): 查询时主要调用browse,传进去 BrowseRequest req,得到BrowseResult。 public interface BrowseService { BrowseResult browse(BrowseRequest req) throws BrowseException; void close() throws BrowseException; static final BrowseResult EMPTY_RESULT=new BrowseResult(); } ...
转载: Token: 如果一个字段被token化,这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位,表示每个被编入索引的字符。 在token化的过程中,分析程序会在使用任何转换逻辑(例如去掉 "a” 或 "the" 这类停用词,执行词干搜寻,将无大小写区分的所有文字转换成小写等)的同时,抽取应被编入索引的文本内容。由于和字段相关的内容减少到只剩核心元素,因此,索引作为与某个字段相关的文字内容,它的规模也被缩小了。只有被token化的字段也将被编入索引的情况下才有意义。 对Akamai.com来说,“标题”被token化,所 ...
 ctrl+shift+T 是查找文件类 ctrl+shift+R 是查找普通的文件
  1、 StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。 2、 StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能。 3、 SimpleAnalyzer SimpleAnalyzer具备基本西文字符词汇分析的分词器,处理词汇单元时,以非字母字符作为分割符号。分词器不能做词汇的过滤,之进行词汇的分析和分割。输出地词汇单元完成小写字符转换,去掉标 ...
  1. 基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysis paoding讨论区:http://www.iteye.com/topic/110148 imdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式 2. 开发者及开发活跃度: paoding :qieqie.wang, google code 上最后一次代码提交:2008-06-12,svn 版本号 132imdi ...
通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。 在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。 (复杂的请看相关文档)。 tf:是查询的词在文档中出现的次数的平方根 idf:表示反转文 ...
Global site tag (gtag.js) - Google Analytics