各种字符串Hash函数比较

博客分类：

lucene

Java自带的字符串hash函数： public int hashCode() { int h = hash; if (h == 0) { int off = offset; char val[] = value; int len = count; for (int i = 0; i < len; i++) { h = 31*h + val[off++]; } hash = h; } ...

2011-02-12 14:54
浏览 4144
评论(0)
分类:编程语言

Linux下Trac的安装

博客分类：

trac

Linux Python MySQL subversion ASP.net

1. 下载 Trac-0.12.1.tar.gz 从 http://trac.edgewall.org/wiki/TracDownload 下载，解压： $ tar xzvf Trac-0.12.1.tar.gz 查看INSTALL文件： *1) Python, version >= 2.4. （Python >= 2.4 ，下面以Python2.7为例，Python3好像有问题，setuptools安装不兼容） * 2) setuptools, version >= 0.6 * 3) Genshi, version >= 0.6 * ...

2011-01-18 17:22
浏览 1457
评论(0)
分类:研发管理

Lucene MoreLikeThisQuery 例子备注

博客分类：

lucene

lucene Linux

1。编码问题： MoreLikeThisQuery中的 BooleanQuery bq= (BooleanQuery) mlt.like(new ByteArrayInputStream(likeText.getBytes())); likeText.getBytes() 这个出的问题，没有指定编码，会自动读取系统默认编码。在linux下运行java程序，它读取来的系统默认字符集市iso8859-1，想让让它在utf-8下运行，方案：在启动程序时多加上-Dfile.encoding=UTF-8参数 2。查询特定范围内的相似构造一个BooleanQuery ...

2011-01-06 11:22
浏览 1473
评论(0)
分类:编程语言

Lucene MoreLikeThisQuery 例子

博客分类：

lucene

lucene Apache PHP maven Java

要做一个跟文章标题相关的新闻，本来想简单做一下，就是把标题用分词处理一下，去除停用词，做个布尔查询，朋友建议lucene有一个 MoreLikeThisQuery，试了一下功能，觉得还可以，贴上示例代码（MoreLikeThisQuery 在contrib 下的Queryies）： pom文件： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schema ...

2011-01-04 13:42
浏览 2855
评论(0)
分类:编程语言

lucene 3.0 分词例子转载

博客分类：

lucene

lucene Apache Blog

源：http://hxraid.iteye.com/blog/634577 首先我们用下面的代码来看看打印标准分词器的运行结果 (在2.9下也可以运行) class StandardTest{ public static void main(String[] args) throws IOException{ //输入流 StringReader s=new StringReader(new String("I'm a student. these are apples")); //标准分词 ...

2010-12-27 17:30
浏览 1958
评论(0)
分类:编程语言

lucene基本概念

博客分类：

lucene

lucene 多线程虚拟机 Security Windows

一、lucene索引的建立 1.索引文件 .fdt文件：主要保存数据源数据，存储的field的值仅为Document中具有的Store.YES属性的field .fdx文件：记录当前Document在.fdt文件中的位置，以便后面读取时方便 segments文件：通常，在一个完整的索引中� ...

2010-12-03 15:51
浏览 1181
评论(0)
分类:编程语言

[转载] lucene使用与优化

博客分类：

lucene

lucene 搜索引擎 SQL 应用服务器数据结构

源：http://www.cnblogs.com/bysshijiajia/archive/2008/01/24/1051401.html 1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架，而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，告诉你你要搜索的关键词出现在哪里。知道了这个本质，你就可以 ...

2010-12-03 10:14
浏览 1067
评论(0)
分类:编程语言

[转载] 几种常见的基于Lucene的开源搜索解决方案对比

博客分类：

lucene

lucene HBase Solr Cassandra Hadoop

源：http://blog.fulin.org/2010/11/search_solutions_compare.html 一直接使用 Lucene ( http://lucene.apache.org ) 说明：Lucene 是一个 JAVA 搜索类库，它本身并不是一个完整的解决方案，需要额外的开发工作优点：成熟的解决方案，有很多的� ...

2010-12-02 16:07
浏览 919
评论(0)
分类:编程语言

[转载] LinkedIn公司实现的实时搜索引擎Zoie

博客分类：

bobo zoie

搜索引擎 lucene Bean 数据结构 Solr

源：http://www.cnblogs.com/forfuture1978/archive/2010/11/29/1891476.html 一、总体架构 Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统，按照其官方wiki的描述为： http://snaprojects.jira.com/wiki/display/ZOIE/Overview Zoie is a realtime indexing and search s ...

2010-12-02 15:42
浏览 1072
评论(0)
分类:编程语言

Bobo- Zoie 主要接口实现以及继承关系

博客分类：

bobo zoie

Bobo的主要包的继承关系 1. BrowseService(Bobo)：查询时主要调用browse，传进去 BrowseRequest req，得到BrowseResult。 public interface BrowseService { BrowseResult browse(BrowseRequest req) throws BrowseException; void close() throws BrowseException; static final BrowseResult EMPTY_RESULT=new BrowseResult(); } ...

2010-11-29 12:32
浏览 1254
评论(0)
分类:编程语言

lucene中的Token, TokenStream, Tokenizer, Analyzer

博客分类：

lucene

lucene

转载： Token：如果一个字段被token化，这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位，表示每个被编入索引的字符。在token化的过程中，分析程序会在使用任何转换逻辑（例如去掉 "a” 或 "the" 这类停用词，执行词干搜寻，将无大小写区分的所有文字转换成小写等）的同时，抽取应被编入索引的文本内容。由于和字段相关的内容减少到只剩核心元素，因此，索引作为与某个字段相关的文字内容，它的规模也被缩小了。只有被token化的字段也将被编入索引的情况下才有意义。对Akamai.com来说，“标题”被token化，所 ...

2010-11-22 10:41
浏览 1378
评论(0)
分类:编程语言

eclipse 查找包，是按那个快捷键？

博客分类：

eclipse

Eclipse

ctrl+shift+T 是查找文件类 ctrl+shift+R 是查找普通的文件

2010-11-19 13:51
浏览 5429
评论(0)
分类:编程语言

Lucene3.0的几种分词系统

博客分类：

lucene

lucene Solr 算法全文检索搜索引擎

1、 StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇，并且完成大写转小写的功能。 2、 StandardAnalyzer StandardAnalyzer根据空格和符号来完成分词，还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理，还可以支持过滤词表，用来代替StopAnalyzer能够实现的过滤功能。 3、 SimpleAnalyzer SimpleAnalyzer具备基本西文字符词汇分析的分词器，处理词汇单元时，以非字母字符作为分割符号。分词器不能做词汇的过滤，之进行词汇的分析和分割。输出地词汇单元完成小写字符转换，去掉标 ...

2010-11-17 17:25
浏览 1310
评论(0)
分类:编程语言

当前几个主要的Lucene中文分词器的比较

博客分类：

lucene

lucene 算法 SVN Google 全文检索

1. 基本介绍： paoding ：Lucene中文分词“庖丁解牛” Paoding Analysis paoding讨论区：http://www.iteye.com/topic/110148 imdict ：imdict智能词典所采用的智能中文分词程序mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式 2. 开发者及开发活跃度： paoding ：qieqie.wang， google code 上最后一次代码提交：2008-06-12，svn 版本号 132imdi ...

2010-11-17 12:35
浏览 1337
评论(0)
分类:编程语言

lucene score explain 评分解释说明

博客分类：

lucene

lucene

通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。 (复杂的请看相关文档)。 tf：是查询的词在文档中出现的次数的平方根 idf：表示反转文 ...

2010-11-16 17:29
浏览 2294
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

各种字符串Hash函数比较

Linux下Trac的安装

Lucene MoreLikeThisQuery 例子备注

Lucene MoreLikeThisQuery 例子

lucene 3.0 分词例子转载

lucene基本概念

[转载] lucene使用与优化

[转载] 几种常见的基于Lucene的开源搜索解决方案对比

[转载] LinkedIn公司实现的实时搜索引擎Zoie

Bobo- Zoie 主要接口实现以及继承关系

lucene中的Token, TokenStream, Tokenizer, Analyzer

eclipse 查找包，是按那个快捷键？

Lucene3.0的几种分词系统

当前几个主要的Lucene中文分词器的比较

lucene score explain 评分解释说明

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>