本月博客排行
-
第1名
Xeden -
第2名
fantaxy025025 -
第3名
bosschen - paulwong
- johnsmith9th
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - gengyun12
- wy_19921005
- vipbooks
- e_e
- benladeng5225
- wallimn
- ranbuijj
- javashop
- jickcai
- fantaxy025025
- zw7534313
- qepwqnp
- robotmen
- 解宜然
- ssydxa219
- sam123456gz
- zysnba
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- xpenxpen
- kaizi1992
- wiseboyloves
- jh108020
- xyuma
- ganxueyun
- wangchen.ily
- xiangjie88
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- nychen2000
- zxq_2017
- lzyfn123
- wjianwei666
- forestqqqq
- ajinn
- siemens800
- hanbaohong
- 狂盗一枝梅
- java-007
- zhanjia
- 喧嚣求静
- Xeden
最新文章列表
IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
选手:IKanalyzer、ansj_seg、jcseg
硬件:i5-3470 3.2GHz 8GB win7 x64
比赛项目:1、搜索;2、自然语言分析
选手介绍:
1,IKanalyzer
IKanalyzer采用的是 ...
IKAnalyzer中文进行分词
import org.apache.commons.io.IOUtils;
import org.apache.commons.lang.StringUtils;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.anal ...
配置solr+ikanalyzer+自定义词库
这里的版本为solr 3.5 + ikanalyzer 3.2.8
ik下载版本https://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q=
1. 配置solr/home/conf/schema.xml
加入<fieldType name=&qu ...
Solr添加IKAnalysis中文分词
1.下载中文分词器IKAnalyzer
地址:http://code.google.com/p/ik-analyzer/downloads/list
2.修改schema.xml文件,加入以下配置:
<fieldType name="textik" class="solr.TextField" >
& ...
Solr 查询,索引
环境
Solr: apache-solr-3.6.2
Tomcat:Tomcat 6.0
JDK: jdk1.6
pc : windows7
Solr的安装和配置
首先 安装 jdk --> 然后 tomcat
下载solr 下载地址:http://apache.etoak.com/lucene/solr/1.4.1/ 详情请见:http://wiki.apache.org ...
基于solr的网站索引架构(一)
关于solr的介绍和参数说明等,可参与网上资料。我这里就只分享下我在项目中使用solr的一些学习心得。
版本:由于使用到 中文分词IKanalry ,是solr4.0才有的新特性,所以使用solr4.0。
solr 官方地址:http://lucene.apache.org/solr/
(备注,项目使用时solr4.0正式版本还没有出来,所有我使用的solr4.0 Beta版本)
...
支持Solr4的IKTokenizerFactory
近日公司开始改造旧有的搜索系统,用到solr4,而且本人关注IK分词器比较多。发现IK 2012对TokenizerFactory不支持,缺乏这个支持的话,有很多自定义配置功能用不上。
故开发此代码,兼容Solr4分词功能
代码测试可用
附件附上对IK2012代码的二次编译jar包
IKTokenizerFactory
package org.wltea.analyz ...
IKAnalyzer 分词如何消歧
个人认为分词最根本的有三个步骤:字典加载,根据一定策略分词,消歧。稍微介绍过分词程序的基本词典数据结构,接着看看如何进行消歧。分词不用多说,比较简单。
拿IKAnalyzer分词器为例,IKAnalyzer的切分方式是细粒度切分,当不需要智能处理时,其就把切出的所有词输出,但若启动了智能处理,那么接下来就是要进行消歧工作。
细粒度切出的词比较杂,但是经过智能处理后, ...
IKAnalyzer介绍
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
IKAnalyzer ...
IKAnalyzer分词单独使用例子
最近用了一下中文分词工具,网上说中科院研究的盘古分词比较好,找了一下没有java版本的,只有.net版本的,所以选用的IKAnalyzer分词工具.
IKAnalyzer官方说有以下特点(我没有做过测试,不知是真是假):
采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗 ...