本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- zysnba
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sichunli_030
- sam123456gz
- 龙儿筝
- arpenker
- tanling8334
- kaizi1992
- gaojingsong
- xpenxpen
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- jbosscn
- mengjichen
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- kingwell.leng
- mwhgJava
- lich0079
最新文章列表
IK分词器原理与原码分析
本文链接: http://quentinXXZ.iteye.com/blog/2180215
引言
做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好理解,每当数据库的单个表大了,就是一件头疼的事,还有在较大数据量级的情况下,你让数据库去做 ...
IkAnalyzer分词、词频、内链优化
IK 中文分词 版本 5.0
package com.test;
import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Arrays;
import java.util.HashMap;
import java.util.LinkedHashM ...
Lucene4.3开发之第四步之脱胎换骨(四)
为防止,一些小网站私自盗用原文,请支持原创
原文永久链接:http://qindongliang1922.iteye.com/blog/1922742
前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章 ...
solr4.3之配置中文分词IK
上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词,
在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)
安装分词前,可以去 ...
为全文检索方案更新词库
在全文检索应用中,为了提高检索的准确性,我们时常需要定期去更新分词库,以
保证各种网络用语、火文(如“屌丝”、“高帅富”,“美富白”),能正确的被识别。 目前对中文分词比较好的插件主要有ik-analyzer、mmseg、庖丁等。ik是目前使用比较广泛,而且作者刚对其进行了更新,目前已经能支持简单的分词歧义排除算法,详细情况请参见ik的开发网站。本文将以ik来测试新添加的分词。 下面我们开始更新词 ...
发布 IK Analyzer 2012 FF 版本
首先感谢大家对IK分词器的关注。
最近一段时间正式公司事务最忙碌的时候,Lucene4.0和Solr4.0发布后,便收到了广大网友的大量邮件要求更新版本,这让我既开心又感到鸭梨大啊~~
花了3天时间,了解了Lucene4.0和solr 4.0与分词相关部分的源码。果然,又是一次不兼容的修订啊~~
时间紧迫的推出了IK Analyzer 2012 FF版本 (你问啥是FF,其实就是For 4.0 ...
Tomcat启动时加载IKAnalyzer词典
因为IK实在第一次分词时才加载词典,可能会导致第一次分词较慢,所以打算在Tomcat启动时就加载到内容,提高速度。步骤如下:
1. 实现ServletContextListner接口
在contextInitialized(ServletContextEvent arg0)方法中,初始化加载:
System.out.println("tomcat启动:初始化词典");
o ...
Key data varaiables in Universe(not finished)
What is key data varaibale? http://www.sdn.sap.com/irj/scn/weblogs?blog=/pub/wlg/4209
当从带有key date变量的query建立univserse时,整个过程没有制定key date的步骤,默认使用BW系统时间。当根据此universe建立WEBI报表时,可以编辑keydate属性,并在每次报表刷新时让 ...
timeout during allocate / CPIC-CALL: 'ThSAPCMRCV'. (IES 10901) (WIS 10901)
When you run a WEBI report off an universe which is created from a BEx query, you might get error timeout during allocate / CPIC-CALL: 'ThSAPCMRCV'. (IES 10901) (WIS 10901)
At the sametime, connecti ...
全文检索服务SOLR3.3支持IK中文分词
转自:http://sinykk.iteye.com/blog/1171098
下载如下三个软件【请注意版本】1:Solr的下载地址http://labs.renren.com/apache-mirror//lucene/solr/3.3.0/apache-solr-3.3.0.zip 【使用 D:\solr\apache-solr-3.3.0\example\solr文件夹里的内容】2 ...