solr3.3 中文IK分词(IKAnalyzer3.2.8 bin.zip)(亲测)
1.IK下载地址
http://code.google.com/p/ik-analyzer/downloads/detail? name=IKAnalyzer3.2.8%20bin.zip&can=2&q=a
2.解压到本地目录
suse@server0:/server/bin> unzip IKAnalyzer3.2.8 bin.zip
3.将jar包放入solr工程下
suse@server0:/server/bin/IKAnalyzer> cp IKAnalyzer3.2.8.jar /server/bin/tomcat/webapps/solr/WEB-INF/lib/
4.修改solr/home 下的 solrconfig.xml
cd /usr/solr/conf
vi solrconfig.xml
<fieldType name="text" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
将IK分词集成到solr中
5.重启tomcat 验证分词(如图)
邮箱:715356603@qq.com(欢迎交流)
- 大小: 23.3 KB
分享到:
相关推荐
- **运行分词**:通过Analyzer接口,创建IKAnalyzer实例,对输入的中文文本进行分词处理。 3. **优化与改进**: - **新词发现**:ik-analyzer-7.4.0版本增强了新词识别能力,能较好地处理网络热词和专业术语。 -...
IKAnalyzer 的下载地址为:http://ik-analyzer.googlecode.com/files/IKAnalyzer3.2.8%20bin.zip。我们可以将其解压到 /usr/local/ 目录下,然后将其添加到 Solr 的配置文件中。 六、中文分词配置 在 Solr 的配置...
3. IKAnalyzer3.2.8_bin.zip:这是版本号为3.2.8的二进制包,"bin"通常包含了可执行文件和其他运行所需文件,适合直接部署使用。 在使用这些IKAnalyzer版本时,你需要根据你的Solr版本和实际需求选择合适的版本进行...
总之,IKAnalyzer3.2.8是一款强大的中文分词工具,它的出现极大地推动了中文信息处理技术的发展,为开发者提供了高效、便捷的中文分词解决方案。通过不断的优化和升级,IKAnalyzer将继续在中文信息处理领域发挥重要...
IKAnalyzer3.2.8版本支持两种不同的分词方式:细粒度切分和最大词长切分。以下是一些具体的例子: - **文本原文1**:“IKAnalyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版...
1. **下载与解压**:首先,你需要从官方网站或者开源社区获取IKAnalyzer的压缩包,例如IKAnalyzer3.2.8 bin,然后进行解压。 2. **引入依赖**:将解压后的jar包添加到你的项目类路径中,以便在代码中调用。 3. **...
- 将`IKAnalyzer3.2.8.jar`文件复制到`tomcat-7.0.14\webapps\solr\WEB-INF\lib`目录下。 - **配置Schema文件**: - 打开`solr`目录下的`schema.xml`文件,在`<Types>`部分添加自定义的`TextField`类型,并指定...
### IK3.2.8原理及源码分析 #### 一、IKAnalyzer3.2.8系统架构 IKAnalyzer3.2.8是一款基于...以上就是IKAnalyzer3.2.8的主要原理及源码分析,通过深入了解其内部机制,我们可以更好地利用这一强大的中文分词工具。
- 将IKAnalyzer的JAR包(例如`IKAnalyzer3.2.8.jar`)放置到Solr的Web应用的`lib`目录下,通常是`apache-tomcat-6.0.32/webapps/solr/WEB-INF/lib`。 2. **配置schema.xml文件:** - 修改Solr的`SOLR_HOME/conf/...
Lucene开发所需其他架包和中文分词器(solr3.5+IKAnalyzer3.2.8),没有加入Lucene包,需要可去http://archive.apache.org/dist/lucene/java/4.10.3/下载相应包。
对于中文搜索,Solr 3.5 可以与第三方分词器,如 IKAnalyzer 3.2.8 整合。这需要将 IKAnalyzer 的 JAR 文件放入 Solr 的 `lib` 目录,并在 `schema.xml` 文件中配置分词器。例如,添加一个名为 `text` 的 `fieldType...