------------------------------------------------------------------------------------------------------------------------------------
Defining a custom field type for microblog text
------------------------------------------------------------------------------------------------------------------------------------
Advanced text analysis
How do you select the right text analyzer during indexing? Assuming you want to index all your documents regardless of language in the same index, a simple solution would be to use a unique field for each language. Suppose we want to index French tweets in our microblog search application. We could define the following field:
<field name="text_fr" type="text_microblog_fr" indexed="true" stored="true" />
-------------------------------------------------------------------------------------------------------------------------------------
Integrate jcseg with solr to deal with chinese tokenizer
1.cp jcseg-core-1.9.5.jar and jcseg-solr-1.9.5.jar to solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/
2. cp lexicon dir to solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/
3. alter schema.xml add fildtype
<fieldtype name="textComplex" class="solr.TextField"> <analyzer> <tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory" mode="complex"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ch.txt"/> </analyzer> </fieldtype>
相关推荐
5. **测试分词效果**:使用Solr的`analysis.jsp`页面或API来测试分词效果。 在Solr 5.5和6.0版本中,可能需要注意的兼容性和优化问题包括: - **版本兼容性**:确保IK分词器的版本与Solr版本匹配,避免出现不兼容的...
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/> <tokenizer class="org.apache.lucene....
<filter class="solr.analysis.IKAnalyzer" useSmart="true" /> ``` 这里的`useSmart`参数用于控制分词模式,设为`true`表示启用智能分词模式,更适合全文检索;设为`false`则为精确分词模式,适用于关键词检索...
同样,需要将mmseg4j的jar包放入lib目录,然后在schema.xml中配置分词器,如`<tokenizer class="com.chenlb.mmseg4j.analysis.MMSegTokenizerFactory"/>`。 停词器的配置主要在于过滤无意义的常见词汇,例如“的”...
<fieldType name="text_ik" class="solr.TextField"> ``` 2. **修改Field类型**: - 在 `managed-schema` 文件中找到需要进行中文分词处理的 `field`,将 `type` 设置为 `text_ik`。 3. **安装IKAnalyzer...
6 ■ Text analysis 162 PART 2 CORE SOLR CAPABILITIES ..........................................195 7 ■ Performing queries and handling results 197 8 ■ Faceted search 250 9 ■ Hit highlighting 281 10...
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/> ...
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/> <tokenizer class="org.apache.lucene....
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/> <filter class="org.apache.lucene....
<fieldType name="text" class="solr.TextField"> <analyzer class="jeasy.analysis.MMAnalyzer"/> ``` - 修改`solr-tomcat/solr/conf/schema.xml`文件中的`Fields`部分,根据需要自定义检索域。 ##### 8. ...
- **Text Analysis**:分析器、分词器和过滤器插件用于处理文本输入,如 Whitespace Tokenizer、Analyzer for "title"、SynonymFilter 和 Porter Stemmer。 4. **配置文件**: - **schema.xml**:定义字段类型和...
<fieldType name="text_ikanalyzer" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/> ...
- **文本分析(Text Analysis)**:在索引文档之前,Solr会对其进行一系列的分析操作,包括但不限于分词、标准化、去重等。 - **分析器(Analyzer)**:分析器是用于执行文本分析的工具,可以是内置的也可以是自定义的。...
- **文本分析(Text Analysis)**:文本分析是Solr处理非结构化文本数据的关键技术之一,涉及到分词、过滤器等组件的选择与配置。 - **查询(Querying)**:查询是Solr最常用的功能之一,涵盖了标准查询语法、布尔查询、...
- 在Solr管理界面上测试中文分词效果:在Analysis模块中,选择刚刚配置的`text_ik`字段类型,输入一段中文文本,点击“Analyse Values”按钮查看分词结果。 通过以上步骤,不仅完成了Solr的基本安装配置,还成功地...
<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/> <tokenizer class="org.apache.lucene....
<fieldType name="text_ikanalyzer" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/> ...
We also do an in-depth analysis of problems faced in an ad serving platform and how Solr can be used to solve these problems. Table of Contents Chapter 1. Solr Indexing Internals Chapter 2. ...