`

Solr:Text analysis

    博客分类:
  • Solr
 
阅读更多



 
 

 



 

 

 

 

 

------------------------------------------------------------------------------------------------------------------------------------

Defining a custom field type for microblog text



 



 



 

------------------------------------------------------------------------------------------------------------------------------------

Advanced text analysis



 
 
 

How do you select the right text analyzer during indexing? Assuming you want to index all your documents regardless of language in the same index, a simple solution would be to use a unique field for each language. Suppose we want to index French tweets in our microblog search application. We could define the following field:

<field name="text_fr" type="text_microblog_fr"
indexed="true" stored="true" />

 

-------------------------------------------------------------------------------------------------------------------------------------

Integrate jcseg with solr to deal with chinese tokenizer

1.cp  jcseg-core-1.9.5.jar and   jcseg-solr-1.9.5.jar  to solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/

2. cp lexicon dir to solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/

3. alter schema.xml add fildtype

<fieldtype name="textComplex" class="solr.TextField">
   <analyzer>
       <tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory" mode="complex"/>
       <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ch.txt"/>
    </analyzer>
</fieldtype>
  • 大小: 48.5 KB
  • 大小: 57.1 KB
  • 大小: 22 KB
  • 大小: 73.6 KB
  • 大小: 116 KB
  • 大小: 64.8 KB
  • 大小: 98.8 KB
  • 大小: 67.7 KB
  • 大小: 81.8 KB
  • 大小: 37.6 KB
  • 大小: 31 KB
分享到:
评论

相关推荐

    支持solr5.5 solr6.0中IK分词需要的资料

    5. **测试分词效果**:使用Solr的`analysis.jsp`页面或API来测试分词效果。 在Solr 5.5和6.0版本中,可能需要注意的兼容性和优化问题包括: - **版本兼容性**:确保IK分词器的版本与Solr版本匹配,避免出现不兼容的...

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/&gt; &lt;tokenizer class="org.apache.lucene....

    solr ik分词器

    &lt;filter class="solr.analysis.IKAnalyzer" useSmart="true" /&gt; ``` 这里的`useSmart`参数用于控制分词模式,设为`true`表示启用智能分词模式,更适合全文检索;设为`false`则为精确分词模式,适用于关键词检索...

    solr搭建(含拼音检索,三种分词器,停词器,扩展词库)

    同样,需要将mmseg4j的jar包放入lib目录,然后在schema.xml中配置分词器,如`&lt;tokenizer class="com.chenlb.mmseg4j.analysis.MMSegTokenizerFactory"/&gt;`。 停词器的配置主要在于过滤无意义的常见词汇,例如“的”...

    solr5.5.4使用文档

    &lt;fieldType name="text_ik" class="solr.TextField"&gt; ``` 2. **修改Field类型**: - 在 `managed-schema` 文件中找到需要进行中文分词处理的 `field`,将 `type` 设置为 `text_ik`。 3. **安装IKAnalyzer...

    Solr in action.mobi

    6 ■ Text analysis 162 PART 2 CORE SOLR CAPABILITIES ..........................................195 7 ■ Performing queries and handling results 197 8 ■ Faceted search 250 9 ■ Hit highlighting 281 10...

    solr环境搭建和中文分词器IK配置

    &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/&gt; ...

    solr7.2.1 ik

    &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/&gt; &lt;tokenizer class="org.apache.lucene....

    solr中文分词器

    &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/&gt; &lt;filter class="org.apache.lucene....

    Window下Solr1.4安装部署

    &lt;fieldType name="text" class="solr.TextField"&gt; &lt;analyzer class="jeasy.analysis.MMAnalyzer"/&gt; ``` - 修改`solr-tomcat/solr/conf/schema.xml`文件中的`Fields`部分,根据需要自定义检索域。 ##### 8. ...

    solr中文文档.pdf

    &lt;tokenizer class="org.apache.solr.analysis.StandardTokenizerFactory"/&gt; ``` - 配置相关搜索字段: ```xml &lt;field name="XXXX" type="text" indexed="true" stored="true" multiValued="true" omitNorms...

    Apache Solr lucene 搜索模块设计实现

    - **Text Analysis**:分析器、分词器和过滤器插件用于处理文本输入,如 Whitespace Tokenizer、Analyzer for "title"、SynonymFilter 和 Porter Stemmer。 4. **配置文件**: - **schema.xml**:定义字段类型和...

    solr中文分词高版本

    &lt;fieldType name="text_ikanalyzer" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/&gt; ...

    solr in action

    - **文本分析(Text Analysis)**:在索引文档之前,Solr会对其进行一系列的分析操作,包括但不限于分词、标准化、去重等。 - **分析器(Analyzer)**:分析器是用于执行文本分析的工具,可以是内置的也可以是自定义的。...

    Solr in action

    - **文本分析(Text Analysis)**:文本分析是Solr处理非结构化文本数据的关键技术之一,涉及到分词、过滤器等组件的选择与配置。 - **查询(Querying)**:查询是Solr最常用的功能之一,涵盖了标准查询语法、布尔查询、...

    Solr安装与整合中文分词IKAnalyzer

    - 在Solr管理界面上测试中文分词效果:在Analysis模块中,选择刚刚配置的`text_ik`字段类型,输入一段中文文本,点击“Analyse Values”按钮查看分词结果。 通过以上步骤,不仅完成了Solr的基本安装配置,还成功地...

    solr6.6-IK

    &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/&gt; &lt;tokenizer class="org.apache.lucene....

    ikanalyzer-solr5

    &lt;fieldType name="text_ikanalyzer" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/&gt; ...

    Apache.Solr.Search.Patterns.1783981849

    We also do an in-depth analysis of problems faced in an ad serving platform and how Solr can be used to solve these problems. Table of Contents Chapter 1. Solr Indexing Internals Chapter 2. ...

Global site tag (gtag.js) - Google Analytics