最新文章列表

Solr4.2.1中文分词

    默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。     但是直接使用的时候,会报NullPointer异常,需要修改一下文件,去掉 ...
ipjmc 评论(0) 有2392人浏览 2013-04-29 20:20

搜索功能实现的基本思路

lucene学习   搜索功能的实现有两种方法: 其一是使用数据库的like进行模糊查询,其二是使用全文索引lucene     lucene与数据库like语句相比的优点 ...
olikeit 评论(0) 有3490人浏览 2013-03-31 22:49

lucenu4.0+paoding

首先apache下的lucene是非常有意思的一个项目,这2天研究了下,发现其实so easy! 不过实用性非常棒,就最近的一些疑惑给出几点自己的认识; 首先,推荐几篇文章,对于菜鸟学习帮助很大, http://www.iteye.com/topic/839504 http://www.blogjava.net/baoyaer/articles/175096.html http://blog.16 ...
wjg_java 评论(0) 有1180人浏览 2013-01-02 15:51

创建索引(Luncene + paoding)

  一、先去网上Down下来 paoding-analysis-2.0.4-beta,解压,在lib目录找到lucene-core-2.2.0.jar,lucene-highlighter-2.2.0.jar,commons-logging.jar 这几个Jar包放到项目当中。 ...
北极光之吻 评论(0) 有2584人浏览 2012-06-12 12:41

paoding基于词典如何分词

    上次介绍了Paoding的字典数据结构,这次介绍下paoding是如何对待分词文本依据词典分词的。paoding在查找字典时依据两个类: BinaryDictionary 和 HashBinaryDictionary。上次也已经介绍过这两个数据结构,这里不再重复。     HashBinaryDictionary其实就是把大块数据词典切分成小块的词典,并用BinaryDictionary存 ...
单眼皮大娘 评论(0) 有1821人浏览 2012-05-03 17:29

paoding分词工具的字典如何构建

    分词工具不管如何变,其肯定会包含字典管理模块(当然,这是针对按字符串匹配分词),就算是基于语义分词也得有语义字典,基于统计需要词频字典等等。     在调研了mmseg4j,ictclas4j(imdict和ictclas4j属于一类,只不过其为了效率去掉了ictclas4j的命名实体识别部分),IKAnalyzer,paoding 等分词器后,发现他们的字典管理基本大同小异。一下以pao ...
单眼皮大娘 评论(0) 有3527人浏览 2012-05-02 16:58

庖丁解牛分词分析

    庖丁系统是个完全基于lucene的中文分词系统,因而它就是重新了一个analyer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词的TokenStream这些都是lucene的结构设计,如果要和lucene一起使用就要这么写。     庖丁系统中的TokenStream就是PaodingTokenizer,它提供了我们用于分词的核心方法 next,它每次 ...
everlook 评论(0) 有2646人浏览 2012-04-16 10:52

solr3.2+庖丁分词器paoding的例子

http://www.juziku.com/wiki/2331.htm
wxfstwxf 评论(0) 有865人浏览 2012-02-19 11:44

[转载]paoding分词引擎与lucene3的兼容

1.用下面“需要替换的类”中的3个.java文件替换庖丁中的同样包名和类名下的.java文件 2.把paoding的PaodingTokenizer类的164行注释掉,就不会报错,像下面这样 super.close(); // input.close();//这句导致报错 ,已经在lucene3.0.3试过 3.选择庖丁的源代码,重新打jar包,jar已经打好了,在下面可以下载
kong0itey 评论(0) 有1034人浏览 2011-08-04 14:25

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics