最新文章列表

PrefixQuery前缀搜索符合的所有放入map

/** PrefixQuery前缀搜索符合的所有放入map      *  @param File indexDir,索引目录;      *  @param String word 索引关键词前缀      *  @return Map      *  @author niewj @since 2011-3-10 */       public static M ...
itfafa 评论(0) 有1234人浏览 2012-07-17 10:37

lucene 小知识

     以前对全文检索望而却步,认为很难玩,最近玩了下Lucene ,发现挺容易上手的。废话不多说,记下小体会。      luncen索引用的是倒排索引技术 ...
单眼皮大娘 评论(0) 有1673人浏览 2012-06-01 14:26

lucene 分词原理1

  Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom ...
晨必须的 评论(0) 有1233人浏览 2012-05-31 20:55

paoding基于词典如何分词

    上次介绍了Paoding的字典数据结构,这次介绍下paoding是如何对待分词文本依据词典分词的。paoding在查找字典时依据两个类: BinaryDictionary 和 HashBinaryDictionary。上次也已经介绍过这两个数据结构,这里不再重复。     HashBinaryDictionary其实就是把大块数据词典切分成小块的词典,并用BinaryDictionary存 ...
单眼皮大娘 评论(0) 有1821人浏览 2012-05-03 17:29

paoding分词工具的字典如何构建

    分词工具不管如何变,其肯定会包含字典管理模块(当然,这是针对按字符串匹配分词),就算是基于语义分词也得有语义字典,基于统计需要词频字典等等。     在调研了mmseg4j,ictclas4j(imdict和ictclas4j属于一类,只不过其为了效率去掉了ictclas4j的命名实体识别部分),IKAnalyzer,paoding 等分词器后,发现他们的字典管理基本大同小异。一下以pao ...
单眼皮大娘 评论(0) 有3527人浏览 2012-05-02 16:58

mmseg4j的字典数据结构(版本1.8.5)

    最近在做分词,在网上发现了MMSEG,论文简单入理。在code.google.com上搜到了java的实现版本,非常感谢chenlb开源自己的代码。     在学习mmseg4j对字典的结构比较困惑,做了些调研,写下自己的感受。     mmseg4j采用 key-tree的形式存储字典数据结构,这有点类似中科院的ictclas4j的字典结构,ictclas4j的字典结构含有6768个字块 ...
单眼皮大娘 评论(0) 有2758人浏览 2012-04-12 18:03

深入搜索引擎--查询(Query)

1.Query的数据分析    Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类 ...
poson 评论(0) 有2452人浏览 2012-03-12 22:56

lucene3.5分词+搜索

最近在做lucene,发现网上的lucene实例都不是很满意,所以自己做了个 ,如果哪有问题可以指出来   建立索引 import java.io.IOException; import org.apache.lucene.analys ...
feizhang666 评论(0) 有2319人浏览 2012-01-10 15:22

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics