Solr:Text analysis - 术业有专攻 - ITeye博客

`

ylzhj02

浏览: 248823 次
性别:
来自: 成都

最近访客更多访客>>

daqin

bbpopeye

也许on

learnmore

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

oldrat： https://github.com/oldratlee/tr ...
Kafka: High Qulity Posts

Solr:Text analysis

博客分类：

Solr

阅读更多

------------------------------------------------------------------------------------------------------------------------------------

Defining a custom field type for microblog text

------------------------------------------------------------------------------------------------------------------------------------

Advanced text analysis

How do you select the right text analyzer during indexing? Assuming you want to index all your documents regardless of language in the same index, a simple solution would be to use a unique field for each language. Suppose we want to index French tweets in our microblog search application. We could define the following field:

<field name="text_fr" type="text_microblog_fr"
indexed="true" stored="true" />

-------------------------------------------------------------------------------------------------------------------------------------

Integrate jcseg with solr to deal with chinese tokenizer

1.cp jcseg-core-1.9.5.jar and jcseg-solr-1.9.5.jar to solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/

2. cp lexicon dir to solr-4.7.0/example/solr-webapp/webapp/WEB-INF/lib/

3. alter schema.xml add fildtype

<fieldtype name="textComplex" class="solr.TextField">
   <analyzer>
       <tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory" mode="complex"/>
       <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ch.txt"/>
    </analyzer>
</fieldtype>

查看图片附件

分享到：

Solr:Performing queries and handling res ... | Solr: Indexing 2

2014-07-09 14:53
浏览 456
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

支持solr5.5 solr6.0中IK分词需要的资料: 5. **测试分词效果**：使用Solr的`analysis.jsp`页面或API来测试分词效果。在Solr 5.5和6.0版本中，可能需要注意的兼容性和优化问题包括： - **版本兼容性**：确保IK分词器的版本与Solr版本匹配，避免出现不兼容的...

ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_: <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/> <tokenizer class="org.apache.lucene....

solr ik分词器: <filter class="solr.analysis.IKAnalyzer" useSmart="true" /> ``` 这里的`useSmart`参数用于控制分词模式，设为`true`表示启用智能分词模式，更适合全文检索；设为`false`则为精确分词模式，适用于关键词检索...

solr搭建（含拼音检索，三种分词器，停词器，扩展词库）: 同样，需要将mmseg4j的jar包放入lib目录，然后在schema.xml中配置分词器，如`<tokenizer class="com.chenlb.mmseg4j.analysis.MMSegTokenizerFactory"/>`。停词器的配置主要在于过滤无意义的常见词汇，例如“的”...

solr5.5.4使用文档: <fieldType name="text_ik" class="solr.TextField"> ``` 2. **修改Field类型**: - 在 `managed-schema` 文件中找到需要进行中文分词处理的 `field`，将 `type` 设置为 `text_ik`。 3. **安装IKAnalyzer...

Solr in action.mobi: 6 ■ Text analysis 162 PART 2 CORE SOLR CAPABILITIES ..........................................195 7 ■ Performing queries and handling results 197 8 ■ Faceted search 250 9 ■ Hit highlighting 281 10...

solr环境搭建和中文分词器IK配置: <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/> ...

solr7.2.1 ik: <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/> <tokenizer class="org.apache.lucene....

solr中文分词器: <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/> <filter class="org.apache.lucene....

Window下Solr1.4安装部署: <fieldType name="text" class="solr.TextField"> <analyzer class="jeasy.analysis.MMAnalyzer"/> ``` - 修改`solr-tomcat/solr/conf/schema.xml`文件中的`Fields`部分，根据需要自定义检索域。 ##### 8. ...

Solr使用初探-1.0: - 使用 `[http://localhost:8983/solr/admin/analysis.jsp]` 页面来测试分词器的工作效果。 - 使用 `[http://localhost:8983/solr/admin/form.jsp]` 页面来构建和模拟搜索请求。 #### 三、SolrJ开发简介 **SolrJ**...

Apache Solr lucene 搜索模块设计实现: - **Text Analysis**：分析器、分词器和过滤器插件用于处理文本输入，如 Whitespace Tokenizer、Analyzer for "title"、SynonymFilter 和 Porter Stemmer。 4. **配置文件**： - **schema.xml**：定义字段类型和...

solr中文分词高版本: <fieldType name="text_ikanalyzer" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/> ...

solr in action: - **文本分析(Text Analysis)**：在索引文档之前，Solr会对其进行一系列的分析操作，包括但不限于分词、标准化、去重等。 - **分析器(Analyzer)**：分析器是用于执行文本分析的工具，可以是内置的也可以是自定义的。...

Solr in action: - **文本分析(Text Analysis)**：文本分析是Solr处理非结构化文本数据的关键技术之一，涉及到分词、过滤器等组件的选择与配置。 - **查询(Querying)**：查询是Solr最常用的功能之一，涵盖了标准查询语法、布尔查询、...

Solr安装与整合中文分词IKAnalyzer: - 在Solr管理界面上测试中文分词效果：在Analysis模块中，选择刚刚配置的`text_ik`字段类型，输入一段中文文本，点击“Analyse Values”按钮查看分词结果。通过以上步骤，不仅完成了Solr的基本安装配置，还成功地...

solr6.6-IK: <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/> <tokenizer class="org.apache.lucene....

ikanalyzer-solr5: <fieldType name="text_ikanalyzer" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis.cn.ikanalyzer.IKAnalyzer"/> ...

Apache.Solr.Search.Patterns.1783981849: We also do an in-depth analysis of problems faced in an ad serving platform and how Solr can be used to solve these problems. Table of Contents Chapter 1. Solr Indexing Internals Chapter 2. ...

Global site tag (gtag.js) - Google Analytics