`
Josh_Persistence
  • 浏览: 1653536 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类

Slor5.x与mmseg4j的集成【使用solr自带的Jetty Server】

    博客分类:
  • Solr
阅读更多

一、mmseg4j对Solr5.x的支持必须使用mmseg4j-2.0以上的版本,本例中我使用的是mmseg4j solr 2.3.0,使用的solr是截止目前为止的solr5.3.1,可下载附件,注意Solr-5.3.1是linux版本,如果需要windows版本,直接去官网上下载,so easy!

 

二、mmseg4j-2.0后的jar包只有两个了,一个是mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar,而不再有

mmseg4j-analysi-*.jar,感兴趣的可以看我Solr其它专题的博客,里面有一个Solr4.7集成mmseg4j-solr-1.9.1的例子。

 

三、将jar包导入solr的web app中,如果Solr集成了Tomcat,也可以参照我的另外一篇博客,即Solr4.7集成mmseg4j-solr-1.9.1的例子。本例子中因为使用的是Solr集成的Jetty Server,所以是在solr的jetty server的home目录下的solr-webapp的webapp的WEB-INF目录下的lib目录中加入上面说到的两个jar包。即类似:

 

/usr/solr/server/solr-webapp/webapp/WEB-INF/lib 的目录。

 

四、创建一个solr core来进行测试,bin/solr create -c chuanliu

       即创建了一个solr core chuanliu,进入该core chuanliu,再进入conf,修改其中managed-schema(在5.0前,该文件是shcema.xml,当然可以将该文件重命名为schema.xml,但不建议这么做),加入下面的内容,即可在Solr Admin 的console中看到新增的这些field了。

 <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="complex"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    </analyzer>
  </fieldType>
  <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="max-word"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    </analyzer>
  </fieldType>
  <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="simple"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    </analyzer>
</fieldType>
 

<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
  <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
  <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>

 

五、去Solr Admin的Console中查看,即可看到新增的3个field和3个field type,也可以在Solr Admin 的Analysis中进行中文分词的分析了。

2
2
分享到:
评论

相关推荐

    solr ssm java

    标题中的"solr ssm java"表明这是一个使用Java语言,结合Spring、SpringMVC和MyBatis(SSM)框架的项目,...这样的项目实例对于学习和理解SSM框架如何与Solr集成,以及如何在实际项目中使用它们,是非常有价值的资源。

    solr7.2总结

    其次,需要将Solr安装根目录下的/dist文件夹下的solr-dataimporthandler-x.x.x.jar和solr-dataimporthandler-extras-x.x.x.jar放到D:\solr-7.2.1\server\solr-webapp\webapp\WEB-INF\lib目录下;最后,需要在Solr...

    大数据Solr架构原理.pdf

    Solr,全称为Apache Solr,是一个开源的全文搜索引擎,基于Java开发,是Apache Lucene项目的一部分。Solr以其高效性、可扩展性和易用性,广泛应用于大数据环境中的搜索和数据分析。它不仅可以处理结构化、半结构化和...

    solr中文解析器以及使用文档

    8. **与博客结合**:描述中提到的"配合blog使用"可能意味着Solr用于索引和搜索博客内容。在这样的场景下,理解博客文章中的中文词汇至关重要,以提供精确的搜索结果和推荐。 总的来说,"solr中文解析器以及使用文档...

    集成Solr​搜索SpringDataSolr.zip

    Spring Data Solr project 集成了 Apache Solr 搜索引擎。它提供了自身的 MappingSolrConverter 以替代 DocumentObjectBinder ,Spring Data Solr 可以处理继承以及使用自定义类,例如 Point 或 DateTime。 ...

    ES和solr搜索方案对比

    另外,ES通过其API支持与云服务的集成,例如Amazon S3,这进一步加强了它在云环境中的适用性。ES还支持多种分布式存储解决方案,如GigaSpaces、Coherence和Terracotta等。 而Solr,在分布式模式下支持的功能并不像...

    自学slor服务搭建过程.docx

    5. **配置Solr库文件** 将Solr安装包中的`lib/ext`目录下的所有JAR文件复制到Tomcat的`webapps/solr/WEB-INF/lib`目录下。 ```bash cp -R /usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/* /usr/local/solr/...

    Solr451全文搜索

    - 将`log4j.properties`文件放置于`classpath`路径下(例如,在`/opt/tomcat-6.0.37/webapps/solr/`目录下创建`classes`文件夹,并将`log4j.properties`文件放入该文件夹)。 4. **设置Solr数据目录:** - 创建一...

    solr使用和原理

    Solr安装,配置及使用说明 已级对主要文件data-config.xml说明

    slor定时增量更新索引dataimport.properties

    slor定时增量更新索引dataimport.properties

    solr5.2.1.jar

    solr-analysis-5.2.1.jar需要的朋友请下载

    ik-analyzer.rar

    "slor分词"这一标签暗示了我们将重点关注ik-analyzer在Solr环境中的使用情况。 首先,让我们了解一下什么是分词。分词是自然语言处理中的基础步骤,它将连续的文本划分为具有独立意义的词语单元,便于计算机理解和...

    slor动态刷新分词库

    采用servlet的方式对分词库进行动态更新,请求servlet对分词库进行修改

    slor7.5最新版本

    Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索...

    lucene-slor

    Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的...

    大数据安全管控系统解决方案.pptx

    总结来说,这个大数据安全管控系统解决方案旨在构建一个全面、综合的安全框架,从终端到云端,从数据的获取到使用,从物理安全到应用安全,全方位保障大数据的安全,实现云与大数据环境的持续安全运行,助力企业打造...

    lia-webdev-elte:该网站是在EötvösLoránd大学的Web开发课程框架中创建的

    【标题】"lia-webdev-elte" 是一个与Eötvös Loránd大学Web开发课程相关的项目,旨在为学生提供实践平台和学习资源。这个项目可能是为了教学目的,让学生掌握现代Web开发技术,如HTML、CSS、JavaScript等,并将...

    distantreading.github.io:可通过网络访问的讨论文件等

    还可以作为PDF最后更新时间2019-02-01 培训学校维尔茨堡“用于生产ELTeC的光学字符识别和文本编码”(维尔茨堡大学,2018年4月16日至17日) 布达佩斯“ ELTeC的Corpus设计和文本贡献”(EötvösLoránd大学,...

Global site tag (gtag.js) - Google Analytics