- 浏览: 150275 次
- 性别:
- 来自: 北京
最新评论
-
bluky999:
@Mark
怎样量化评价搜索引擎的结果质量 -
baso4233:
非常感谢,我跑通了。途中出现了,java.lang.Unsup ...
norbert 高并发分布式服务例子 examples (二) -
yangsong158:
rabbit9898 写道xiansuanla 写道我运行 m ...
JMX 入门例子 -
rabbit9898:
xiansuanla 写道我运行 main方法以后 cmd 里 ...
JMX 入门例子 -
xiansuanla:
我运行 main方法以后 cmd 里面运行 jconsole ...
JMX 入门例子
文章列表
Java自带的字符串hash函数:
public int hashCode() {
int h = hash;
if (h == 0) {
int off = offset;
char val[] = value;
int len = count;
for (int i = 0; i < len; i++) {
h = 31*h + val[off++];
}
hash = h;
}
...
1. 下载 Trac-0.12.1.tar.gz
从 http://trac.edgewall.org/wiki/TracDownload 下载,解压:
$ tar xzvf Trac-0.12.1.tar.gz
查看INSTALL文件:
*1) Python, version >= 2.4. (Python >= 2.4 ,下面以Python2.7为例,Python3好像有问题,setuptools安装不兼容) * 2) setuptools, version >= 0.6 * 3) Genshi, version >= 0.6 * ...
1。 编码问题:
MoreLikeThisQuery中的
BooleanQuery bq= (BooleanQuery) mlt.like(new ByteArrayInputStream(likeText.getBytes())); likeText.getBytes() 这个出的问题,没有指定编码,会自动读取系统默认编码。
在linux下运行java程序,它读取来的系统默认字符集市iso8859-1,想让让它在utf-8下运行,方案:在启动程序时多加上-Dfile.encoding=UTF-8参数
2。查询特定范围内的相似
构造一个BooleanQuery ...
要做一个跟文章标题相关的新闻,本来想简单做一下,就是把标题用分词处理一下,去除停用词,做个布尔查询,朋友建议lucene有一个 MoreLikeThisQuery,试了一下功能,觉得还可以,贴上示例代码 (MoreLikeThisQuery 在contrib 下的Queryies):
pom文件:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schema ...
源:http://hxraid.iteye.com/blog/634577
首先我们用下面的代码来看看打印标准分词器的运行结果 (在2.9下也可以运行)
class StandardTest{
public static void main(String[] args) throws IOException{
//输入流
StringReader s=new StringReader(new String("I'm a student. these are apples"));
//标准分词
...
一、lucene索引的建立
1.索引文件
.fdt文件:主要保存数据源数据,存储的field的值仅为Document中具有的Store.YES属性的field
.fdx文件:记录当前Document在.fdt文件中的位置,以便后面读取时方便
segments文件:通常,在一个完整的索引中 ...
源:http://www.cnblogs.com/bysshijiajia/archive/2008/01/24/1051401.html
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以 ...
源:http://blog.fulin.org/2010/11/search_solutions_compare.html
一 直接使用 Lucene ( http://lucene.apache.org )
说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作
优点:成熟的解决方案,有很多的 ...
源:http://www.cnblogs.com/forfuture1978/archive/2010/11/29/1891476.html
一、总体架构
Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:
http://snaprojects.jira.com/wiki/display/ZOIE/Overview
Zoie is a realtime indexing and search s ...
Bobo的主要包的继承关系
1. BrowseService(Bobo):
查询时主要调用browse,传进去 BrowseRequest req,得到BrowseResult。
public interface BrowseService {
BrowseResult browse(BrowseRequest req) throws BrowseException;
void close() throws BrowseException;
static final BrowseResult EMPTY_RESULT=new BrowseResult();
}
...
转载:
Token: 如果一个字段被token化,这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位,表示每个被编入索引的字符。 在token化的过程中,分析程序会在使用任何转换逻辑(例如去掉 "a” 或 "the" 这类停用词,执行词干搜寻,将无大小写区分的所有文字转换成小写等)的同时,抽取应被编入索引的文本内容。由于和字段相关的内容减少到只剩核心元素,因此,索引作为与某个字段相关的文字内容,它的规模也被缩小了。只有被token化的字段也将被编入索引的情况下才有意义。 对Akamai.com来说,“标题”被token化,所 ...
ctrl+shift+T 是查找文件类 ctrl+shift+R 是查找普通的文件
1、 StopAnalyzer
StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。
2、 StandardAnalyzer
StandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能。
3、 SimpleAnalyzer
SimpleAnalyzer具备基本西文字符词汇分析的分词器,处理词汇单元时,以非字母字符作为分割符号。分词器不能做词汇的过滤,之进行词汇的分析和分割。输出地词汇单元完成小写字符转换,去掉标 ...
1. 基本介绍:
paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
paoding讨论区:http://www.iteye.com/topic/110148
imdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式
2. 开发者及开发活跃度:
paoding :qieqie.wang, google code 上最后一次代码提交:2008-06-12,svn 版本号 132imdi ...
通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。
在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。
(复杂的请看相关文档)。
tf:是查询的词在文档中出现的次数的平方根
idf:表示反转文 ...