最新文章列表

IK如何实现同义词搜索

  转载请声明出处,谢谢。翻译也很辛苦      solr学习交流扣扣群340954928   IK如何实现同义词搜索     如何通过IK实现   <!--[if !supportLists]-->1、  <!--[endif]-->在schema.xml中配置            <fieldType name="tex ...
韩悠悠 评论(0) 有1688人浏览 2016-06-07 10:11

IK分词器原理与原码分析

本文链接: http://quentinXXZ.iteye.com/blog/2180215 引言      做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好理解,每当数据库的单个表大了,就是一件头疼的事,还有在较大数据量级的情况下,你让数据库去做 ...
quentinXXZ 评论(0) 有6639人浏览 2015-01-26 21:38

IkAnalyzer分词、词频、内链优化

IK 中文分词  版本 5.0 package com.test; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Arrays; import java.util.HashMap; import java.util.LinkedHashM ...
ik 
zqb666kkk 评论(0) 有4017人浏览 2014-07-01 09:52

IKVM 的使用

今天发现一个强大的工具,可以直接把java 的jar 打包成dll文件,然后.net可以直接用里面的方法。 引用:http://blog.sina.com.cn/s/blog_8882b46a0101atg3.html
yangsongjing 评论(0) 有728人浏览 2014-03-10 19:38

Lucene4.3开发之第四步之脱胎换骨(四)

  为防止,一些小网站私自盗用原文,请支持原创   原文永久链接:http://qindongliang1922.iteye.com/blog/1922742   前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章 ...
qindongliang1922 评论(12) 有9952人浏览 2013-08-09 18:40

solr4.3之配置中文分词IK

上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词, 在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种 1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库) 2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库) 安装分词前,可以去 ...
qindongliang1922 评论(2) 有6868人浏览 2013-06-25 15:41

tomcat + solr + IK 全过程

solr初触,在用jetty跑通以后,开始在tomcat下进行配置。 首先,下载最新版的solr ,http://apache.dataguru.cn/lucene/solr/4.2.1/ 1:将dist目录下的solr-4.2.0.war 复制到tomcat 下的webapps根目录,重命名为solr.war,运行tomcat,solr.war被解压。 2:在tomcat根目录(可以是任何目录 ...
Dmingming 评论(0) 有1161人浏览 2013-04-19 15:45

为全文检索方案更新词库

在全文检索应用中,为了提高检索的准确性,我们时常需要定期去更新分词库,以 保证各种网络用语、火文(如“屌丝”、“高帅富”,“美富白”),能正确的被识别。 目前对中文分词比较好的插件主要有ik-analyzer、mmseg、庖丁等。ik是目前使用比较广泛,而且作者刚对其进行了更新,目前已经能支持简单的分词歧义排除算法,详细情况请参见ik的开发网站。本文将以ik来测试新添加的分词。 下面我们开始更新词 ...
eagler006 评论(0) 有1952人浏览 2013-01-11 15:16

发布 IK Analyzer 2012 FF 版本

首先感谢大家对IK分词器的关注。 最近一段时间正式公司事务最忙碌的时候,Lucene4.0和Solr4.0发布后,便收到了广大网友的大量邮件要求更新版本,这让我既开心又感到鸭梨大啊~~ 花了3天时间,了解了Lucene4.0和solr 4.0与分词相关部分的源码。果然,又是一次不兼容的修订啊~~ 时间紧迫的推出了IK Analyzer 2012 FF版本 (你问啥是FF,其实就是For 4.0 ...
linliangyi2007 评论(49) 有25091人浏览 2012-10-23 17:50

Tomcat启动时加载IKAnalyzer词典

因为IK实在第一次分词时才加载词典,可能会导致第一次分词较慢,所以打算在Tomcat启动时就加载到内容,提高速度。步骤如下: 1. 实现ServletContextListner接口 在contextInitialized(ServletContextEvent arg0)方法中,初始化加载: System.out.println("tomcat启动:初始化词典"); o ...
BlackWing 评论(0) 有1887人浏览 2012-03-23 11:49

Key data varaiables in Universe(not finished)

 What is key data varaibale? http://www.sdn.sap.com/irj/scn/weblogs?blog=/pub/wlg/4209   当从带有key date变量的query建立univserse时,整个过程没有制定key date的步骤,默认使用BW系统时间。当根据此universe建立WEBI报表时,可以编辑keydate属性,并在每次报表刷新时让 ...
IK 
blueoxygen 评论(0) 有969人浏览 2011-11-15 09:43

timeout during allocate / CPIC-CALL: 'ThSAPCMRCV'. (IES 10901) (WIS 10901)

When you run a WEBI report off an universe which is created from a BEx query, you might get error timeout during allocate / CPIC-CALL: 'ThSAPCMRCV'. (IES 10901) (WIS 10901)   At the sametime, connecti ...
IK 
blueoxygen 评论(0) 有4584人浏览 2011-11-11 06:27

全文检索服务SOLR3.3支持IK中文分词

转自:http://sinykk.iteye.com/blog/1171098   下载如下三个软件【请注意版本】1:Solr的下载地址http://labs.renren.com/apache-mirror//lucene/solr/3.3.0/apache-solr-3.3.0.zip 【使用 D:\solr\apache-solr-3.3.0\example\solr文件夹里的内容】2 ...
dcbjavaeye 评论(0) 有1539人浏览 2011-10-04 10:05

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics