`
guoyunsky
  • 浏览: 858971 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:207189
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Solr4.0+IKAnalyzer中文分词安装

 
阅读更多

     本人新浪微博:http://weibo.com/guoyunwb

   

     有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化。不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了。2年前接触了solrcloud,那时大概玩了一周。那时很想玩cloud,但发现solrcloud并不是具有那种cloud。于是放弃了。现在发现solr4.0貌似集成了以前的solrcloud,通过zookeeper去管理集群。同时监控和运维管理方面也更加方便了。但具体没有多看,迫于业务的压力,也是火急火燎的赶紧给搭了个solr,以后再慢慢深入。

 以前虽然lucene,solr什么玩的很熟(源码层面).但两年没接触还真有点情同陌路。有时会想放弃一个自己熟悉的东西,去做新的东西,会很可惜。比如solr,lucene.

或许那时自己一直坚持下来,可能已经会有了自己的开源框架。爬虫也是,Heritrix坚持下来,或许分布式的,any ajax都可以抓取的框架已经猥琐出世。但这个世界没有什么

如果,只是从心底(所谓的follow heart),以及从身外(所谓的money)来说,我觉得当初的放弃,应该是暂时的放弃还是值得的。因为给了我不一样的视野。尤其全文检索等,拼到后面,拼的还是大数据,实时,数据挖掘。这也是当初我毅然决定做hadoop的原因。废话了一大把,进入主题吧。

1.依赖:

JDK1.6,Tomcat 5.5,Solr 4.0.0,IKAnalyzer 2012FF

Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控.

Tomcat等你也可以用其他版本

2.下载:

#Tomcat:

wget http://archive.apache.org/dist/tomcat/tomcat-5/v5.5.35/bin/apache-tomcat-5.5.35.tar.gz

#Solr

wget Solr:  http://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/4.0.0/apache-solr-4.0.0.tgz

#IKAnalyzer

wget http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip

3.安装步骤:

1)JDK安装

                   JDK安装省略,你只要安装完成在环境中设置JAVA_HOME即可,比如我这边是JAVA_HOME=/usr/java/default

2) TOMCAT安装

                     TOMCAT安装省略,你只要安装完车功能在环境中设置CATALINA_HOME即可,比如我这边是CATALINA_HOME=/opt/tomcat/current

3) 安装solr

a.安装solr webapp

                         解压solr后得到apache-solr-4.0.0,进入apache-solr-4.0.0/dist/,可以看到apache-solr-4.0.0.war.该文件其实是个zip文件,用命令

 unzip apache-solr-4.0.0.war将其解压,获得apache-solr-4.0.0,将其重命名为solr,放到tomcat目录下的webapps目录下,比如我这边是

              /opt/tomcat/current/webapps/

b.安装中文分词IKanalyzer

解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1.将该目录下的IKAnalyzer.cfg.xml,IKAnalyzer2012FF_u1.jar,stopword.dic

放到之前安装TOMCAT_HOME/webapps/solr/WEB-INF/lib/目录下,比如我这里是/opt/tomcat/current/webapps/solr/WEB-INF/lib/

4) 安装solr-work,也就是solr配置和索引目录

a.告知solr它的工作目录在哪里

一般有两种方式,设置环境变量以及jndi。但我建议采用jndi,还是那个原因,便于维护.

在$TOMCAT_HOME/conf/Catalina/localhost里新建solr.xml文件,内容如下:

 <Context docBase="/usr/local/tomcat/webapps/solr.war" debug="0" crossContext="true" >   
  	<Environment name="solr/home" type="java.lang.String" value="/opt/solr/work/solr" override="true" />  
</Context> 

 

其中里面的/opt/solr/work/solr就是所谓的solr工作目录.solr配置,以及索引都将存放到该目录.

b.配置solr

简单的话将刚解压后的apache-solr-4.0.0/example/solr下的所有文件复制到/opt/solr/work/solr目录下

c.设置IKAnalyzer中文分词

修改/opt/solr/work/solr/collection1/conf/中的schema.xml,在<type></types>中增加如下内容:

++

<fieldType name="text_ik" class="solr.TextField">
      	<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
	<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

 

其中查询采用IK自己的最大分词法,索引则采用它的细粒度分词法.所以各自配置了isMaxWordLength属性.

4.启动/停止solr

只要启动/停止Tomcat即可

 

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

 

2
0
分享到:
评论
10 楼 高军威 2013-10-23  
没有 停止词的配置吗
9 楼 ynyee 2013-01-28  
isMaxWordLength="true"   这个配置好像无效!!!
8 楼 ynyee 2013-01-28  
baa 写道
solr.xml 配置文件中,docBase的路径好像写错了。
前面是解压出来的,后面的配置文件又变成war包了。



Context 那里直接写 path="solr" 不用写docBase
7 楼 baa 2013-01-25  
solr.xml 配置文件中,docBase的路径好像写错了。
前面是解压出来的,后面的配置文件又变成war包了。
6 楼 guoyunsky 2012-12-09  
mn_1127 写道
谢谢分享…… 
我想也转入hadoop的学习,不知道前途怎么样


前途不是由hadoop决定...
任何东西都有周期,技术也是,hadoop也是...
5 楼 mn_1127 2012-11-30  
谢谢分享…… 
我想也转入hadoop的学习,不知道前途怎么样
4 楼 wolfmaster 2012-11-29  
wolfmaster 写道
wolfmaster 写道
wolfmaster 写道
bucuo

挺好

确实不错。。

新的
3 楼 wolfmaster 2012-11-29  
wolfmaster 写道
wolfmaster 写道
bucuo

挺好

确实不错。。
2 楼 wolfmaster 2012-11-29  
wolfmaster 写道
bucuo

挺好
1 楼 wolfmaster 2012-11-29  
bucuo

相关推荐

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 Apache Solr 的一个版本,这是一个高度可配置、高性能的全文搜索和分析引擎,广泛用于构建企业级搜索应用...

    tomcat8.5+solr7+IKAnalyzer5

    描述中提到"已经整合IKAnalyzer中文分词, 直接使用即可",这意味着开发者已经完成了将IKAnalyzer与Solr的集成工作,使得Solr具备了对中文文本的分词处理能力,用户可以直接在该环境中进行搜索和索引操作,无需额外的...

    solr 5.0.0 + tomcat7 安装 + IKAnalyzer中文分词

    在这个过程中,我们将详细介绍如何在Tomcat7上安装Solr 5.0.0,并结合IKAnalyzer实现中文分词。 首先,我们需要下载Solr 5.0.0的压缩包和Tomcat7。确保你的系统已经安装了Java开发环境(JDK),因为Solr和Tomcat都...

    tomcat8.5+solr7+IKAnalyzer5+ikpinyin直装版

    【标题】"tomcat8.5+solr7+IKAnalyzer5+ikpinyin直装版" 提供了一个集成的搜索引擎环境,其中包含了Tomcat 8.5作为应用服务器,Solr 7作为核心搜索引擎,以及IKAnalyzer5和ikpinyin这两个中文分词插件。这个组合特别...

    支持solr 5.3.0的IKAnalyzer中文分词器

    IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: &lt;fieldType name="text_ik" class=...

    solr4.1+IK中文分词

    安装和配置过程中,需要在Solr的配置文件中指定IK分词器,例如在schema.xml中定义字段类型,并设置IK分词器为默认分析器。同时,根据实际需求,可能还需要对IK分词器进行一些定制,比如添加自定义词典,以包含特定...

    solr+IK Analyzer

    Solr和IK Analyzer是两个在中文分词和全文检索领域常用的工具。Solr是一个开源的搜索服务器,由Apache Lucene项目提供支持,它允许开发者构建和维护高度可扩展的、高性能的搜索应用。而IK Analyzer是一款针对中文的...

    solr+IKAnalyzer部署

    NULL 博文链接:https://lpyyn.iteye.com/blog/2074539

    solr5 IK-Analyzer中文分词

    solr5 IK-Analyzer中文分词。jar里面有IKAnalyzer.cfg.xml、stopword.dic

    solr6.0+mysql+IK分词集成

    IK分词器(IK Analyzer)是中国开源社区开发的一款Java语言实现的中文分词工具,特别适用于搜索引擎和其他需要全文检索的应用。现在我们来详细探讨这三个组件如何集成以及相关的知识点。 **Solr6.0** 1. **安装与...

    ik-analyzer-solr7.zip

    IKAnalyzer在Solr中的集成使得用户可以方便地在Solr中使用它进行中文文本的预处理,包括分词、去停用词等步骤,这对于提高搜索的准确性和效率至关重要。在Solr7.x版本中,IKAnalyzer可能已经针对该版本的特性和需求...

    Solr6.0集成IK-Analyzer分词器

    - 将`IK-Analyzer-2015FF.jar`文件放入Solr的lib目录下,这个jar包包含了IK Analyzer的所有核心库,用于处理中文分词。 3. **配置Schema.xml** - 在Solr的`solr_home/solr/collection_name/conf`目录下找到`...

    solr配置ikanalyzer分词文件以使用说明

    Solr是一款强大的全文搜索引擎,广泛...总的来说,正确配置ikanalyzer是提升Solr中文搜索性能的关键步骤。通过上述步骤,你应该能在Solr 6.0环境中成功使用ikanalyzer进行中文分词,为你的应用提供更精准的搜索体验。

    ElasticSearch+IKAnalyzer整合版 解压即用

    IKAnalyzer是一款开源的中文分词器,最初设计用于Solr,但后来也被广泛应用于Elasticsearch。它支持多种分词模式,包括精确模式、全模式、快速模式以及自定义词典。IKAnalyzer的优势在于其对中文词汇的精准识别,...

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    tomcat8+solr7.4+IK

    在Solr中集成IK分词器,可以更好地处理中文内容的索引和搜索。 5. **端口设置**:默认情况下,Solr可能使用8983端口提供服务。这意味着你需要确保这个端口未被其他应用程序占用,并在防火墙设置中开放该端口,以便...

    solr_5.0_tomcat7_IKAnalyzer中文分词安装及demo

    在这个"solr_5.0_tomcat7_IKAnalyzer中文分词安装及demo"的压缩包中,你将找到如何在Solr 5.0中集成IKAnalyzer并进行演示的详细步骤。 首先,我们需要了解Solr与IKAnalyzer的集成过程: 1. **下载和解压**:获取...

Global site tag (gtag.js) - Google Analytics