- 浏览: 97394 次
- 性别:
- 来自: 上海
最新评论
-
jyjsjd:
请教博主这个ChineseTokenizer()你是怎么写的, ...
使用WVTool进行文本分类 -
superclay:
能不能发个indexwriter indexsearch ...
结合ehcache缓存对lucene使用单例模式搜索 -
strayly:
我采用和ehcache缓存结合使用单例模式
使用ehcache ...
lucene搜索优化(转)
文章列表
地址:http://tmtheme-editor.herokuapp.com/#!/editor/theme/Monokai
可以自己在线自定义颜色主题 然后下载
同时网站还提供了大量现成的主题,点击顶部的gallery选择自己喜欢的下载
下载下来是.tmTheme
使用方法1:直接将文件拷贝到用户的Packages目录下,比如我的目录是C:\Documents and Settings\Administrator\Application Data\Sublime Text 3\Packages\Theme
方法2:在sublime txt 安装目录的Packages里找到Color Sche ...
php计算海明距离(64位)查找相似文档
- 博客分类:
- php
<?php
class Simhash {
public $m_hash = null;
public $hashbits = null;
public $code = null;
public $m_hashbits = 64;
public function __construct($code='UTF-8'){
$this->code = $code;
}
public function __toString(){
return strval($this->m_hash);
}
//返回hash值
p ...
安装openssl
brew install openssl
将安装的openssl和解压的libevent下的include目录做个链接
ln -s /usr/local/Cellar/openssl/1.0.2e_1/include /libevent/include/openssl
由于项目需要,在使用xunsearch中需要按docid排序
但看了xunsearch文档api,只找到setDocOrder这个接口
但它并不能真正按docid排序,它还是按权重排序的,同权重的再按docid排序。
研究了一下xapian文章,下面是它关于按date排序的介绍
If you want to offer a "sort by date" feature, and can arrange for documents to be indexed in date order (or a close-enough approximation), then you ca ...
$txt = preg_replace('#(?=[^>]*(?=<(?!/a>)|$))'.preg_quote($arr2[0]).'#i',$arr2[1],$txt,$re_count);
brew 更换国内源
- 博客分类:
- mac
cd /usr/local
git remote set-url origin git://mirrors.tuna.tsinghua.edu.cn/homebrew.git
brew update
如果速度还是很慢,可以尝试以下操作: 然后重试update。
cd ~/tmp
git clone git://mirrors.tuna.tsinghua.edu.cn/homebrew.git
rm -rf /usr/local/.git
rm -rf /usr/local/Library
cp -R homebrew/.git /usr/local/
cp -R ...
eclipse下build c++问题
- 博客分类:
- c/c++
eclipse下build c++问题
eclipse 安装了cdt ,但build时候一直失败 Error: Cannot run program "g++": ?????????¨?
找了半天 总算在网上找到了原因
eclipse cdt 下载解压安装的与更新安装有个区别
下载解压plugins下面有个文件:org.eclipse.cdt.core.win32_5.0.0.200902130801.jar
需要将该文件解压,并删除原jar文件在32位windows下不是org.eclipse.cdt.core.win32_5.2.0.201202111925. ...
mb_convert_encoding(preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F]+/', ' ', $str), 'GBK', 'GBK');
Mysql 官方发布了一个Memcached 的插件。以前,曾经也有MemcacheDB 做过相同的事情,不过似乎它现在没啥声音了,而非官方、非Memcached 协议的HandlerSocket 最近反响挺强烈的。这些都有一个共同点:基于Mysql 的storage engine,然后在其上构建一层自有API。 一、安装 安装这个挺简单的,因为此插件需要Mysql 5.6 以上版本支持,所以最好的办法就是去http://labs.mysql.com/ 网站上下载一个包,选择mysql-5.6-labs-innodb-memcached 这个包下载,里面包含了mysql5.6 和 ...
在gb2312页面的form中添加:accept-charset="utf-8" onsubmit="document.charset='utf-8';",如:<form method="post" action="2.php" accept-charset="utf-8" onsubmit="document.charset='utf-8';">这样一来,ie、ff、opera、google等主流浏览器都欣然接受了。但是当提交后直接后退这又出现新问题了,form页 ...
TFS海量小文件存储
- 博客分类:
- Linux
TFS(Taobao !FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构,可将文件名映射到文件的物理地址,简化了文件的访问流程,一定程度上为TFS提供了良好的读写性能。http://tfs.taobao.org/
是否进行实时搜索 实时搜索(近实时搜索) 完全的实时搜索:只要数据库一变动,马上要更新索引,writer.commit来操作 近实时搜索:当用户修改了信息之后,先把索引保存到内存中,然后在一个统一的时间对内存中的所有的索引进行提交操作。reopen,NRTManager(near-real-time)
lucene3.5 近实时搜索(Near Real Time)
lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通
过线程跟踪,在相对很短的时间反映给给用户程序的调用
NRTManager通过管理IndexWri ...
lucene简单词典分词
- 博客分类:
- lucene
其实要实现自己的分词并不是很困难。
要实现Token的next()方法,要实现比较好的分词就需要在这里进行复杂的处理,不过我的需求比较简单,
所以只在这判断一下是否有词库中对应的词。
private final Token getToken(String w,int p){ Token token = new Token(w,p,w.length()); return token; } public final Token next() throws IOException{ ArrayList list = WordTreeFactory.getInstance();//初始 ...
安装包下载当前最新版本为:0.20.6http://www.elasticsearch.org/download/
官方视频教程http://www.elasticsearch.org/videos/
Window环境下载完解开有以下个包:bin是运行的脚本,config是设置文件,lib是放依赖的包。
启动解压目录下的bin名称的文件夹,双击elasticsearch.bat文件,就可以启动elasticsearch,启动成功界面如下:
转载 利用LUCENE求相似文档
- 博客分类:
- lucene
/*
* MoreLikeThis.java
*
* Created on 2008年3月11日, 下午3:31
*
* To change this template, choose Tools | Template Manager
* and open the template in the editor.
*/
package Similarity;
import java.util.*;
import java.io.*;
import java.lang.*;
import java.text.*;
import org.apache.lucene.analysis.TokenStr ...