`

配置solr的schema.xml加入中文分词器

阅读更多
solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml

1. 首先在<types></types>中加入fieldType。

这里使用mmseg.
在mmseg文件中, 打开readme.txt, 可以看到:

[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFactory。
在 solr的 schema.xml 中定义 field type如:
<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
      </analyzer>
    </fieldType>

   
dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录),mode 指定分词模式(simple|complex|max-word,默认是max-word)。
[/color]

这里的dicPath是词库位置目录, 相对于solr.home目录。
所以要在solr/home目录中建立一个dic文件夹, 把词库文件放进去。

最后的dicPath是绝对路径。 没有的话就设置为dic即可

2. 将mmseg4j-all-1.8.5.jar放入到d:/lucene/solr/server/solr/WEB-INF/lib里。

3. 打开http://localhost:8080/solr/admin/analysis.jsp
选择type, 输入上面的fieldType name="xx"的xx值。

输入中文就可以进行分词了。



4. 设置field。
找到 <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
把type="text_general"修改为textComplex,那么我们建立的名为title的field,就会使用中文分词了。
分享到:
评论

相关推荐

    solr7.x-ik分词器亲测可用.zip

    - 然后,更新 Solr 的 `schema.xml` 文件,定义字段类型,并指定使用 IK 分词器。例如: ```xml &lt;fieldType name="text_ik" class="solr.TextField"&gt; &lt;tokenizer class="org.wltea.analyzer.lucene....

    solr 5.x 和 6.x 最新中文分词器

    总之,选择合适的中文分词器并对其进行有效配置,对于提升Solr的中文搜索效果至关重要。同时,关注Solr的版本更新和最佳实践,有助于保持系统的稳定性和性能。在实际应用中,应结合业务需求不断调整优化,以达到理想...

    solr5.5.x的中文分词IKAnalyzer

    在实际应用中,配置IKAnalyzer与Solr集成时,你需要在Solr的schema.xml或managed-schema文件中定义字段类型,并指定使用IKAnalyzer。例如: ```xml &lt;fieldType name="text_ik" class="solr.TextField" ...

    支持solr6.x的中文分词,对solr7的支持暂时没有测试过

    2. **配置Schema**:在Solr的Schema.xml文件中,为需要进行中文分词的字段定义一个Analyzer,指定使用ikanalyzer。例如: ```xml &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; ...

    solr6.x_IK中文分词工具

    4. 配置字段类型(FieldType)使用IK分析器,在`schema.xml`文件中: ```xml &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.wltea.analyzer.lucene....

    ik-analyzer-solr7.zip

    配置文件(如`schema.xml`或`solrconfig.xml`)需要更新以指示Solr使用IKAnalyzer进行分词。JAR库文件(如`ik-analyzer.jar`)则需要添加到Solr的类路径中,以便在运行时能够加载和使用分词器。字典文件通常包含预定...

    solr4.X所用IKAnalyzer中文分词器jar包

    3. **配置Solr**:在`solrconfig.xml`中配置分词器,指定使用IKAnalyzer,并在`schema.xml`中定义字段类型,指定该字段使用IKAnalyzer进行分词。 4. **重启Solr**:完成上述配置后,重启Solr服务器,使新的分词器...

    ikanalyzer5.5-solr6.5.zip

    2. **配置Solr schema.xml**:在Solr的schema.xml配置文件中,为需要分词的字段指定`&lt;analyzer&gt;`标签,使用IKAnalyzer的类名,如`org.wltea.analyzer.lucene.IKAnalyzer`。 3. **启动Solr**:更新完配置后,重启Solr...

    solr5.x以及以上版本的IK分词器

    用户通常需要将这个组件添加到Solr的lib目录下,并在Solr的schema.xml或managed-schema文件中配置相应的字段类型和分析器。 **配置与使用** 在Solr中使用IK分词器,需要在schema.xml文件中定义一个字段类型(field...

    solr中文分词器

    2. **配置Solr schema.xml**:在Solr的`conf`目录下,找到`schema.xml`文件,这是定义索引字段和分析器的地方。在`&lt;fields&gt;`标签内,为需要进行中文分词的字段添加`&lt;fieldType&gt;`标签,指定使用IK Analyzer。例如: ...

    solr搭建(含拼音检索,三种分词器,停词器,扩展词库)

    安装IK分词器需要将对应的jar包放入Solr的lib目录,然后在schema.xml中配置分词器,如`&lt;tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/&gt;`。 3. mmseg4j:mmseg4j提供了一种基于...

    solr ik分词器

    4. **配置字段类型**:在`schema.xml`文件中,为需要用到IK分词器的字段定义一个类型,例如: ```xml &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org....

    ik-analyzer-solr7.x.zip

    在“server/solr/configsets/_default/conf”目录下,找到“schema.xml”文件,打开后找到`&lt;fields&gt;`标签,添加一个字段类型定义,如下: ```xml &lt;fieldType name="text_ik" class="solr.TextField" ...

    ikanalyzer-solr5.zip

    使用这个压缩包,用户可以将IK Analyzer集成到Solr的配置中,通过修改`schema.xml`或`managed-schema`文件,指定使用IK Analyzer作为特定字段的分词器。这通常涉及到在字段类型定义中添加类似以下的配置: ```xml ...

    支持solr 5.3.0的IKAnalyzer中文分词器

    IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: &lt;fieldType name="text_ik" class="...

    schema.xml说明

    在Solr搜索服务器中,`schema.xml` 文件扮演着核心配置文件的角色,它定义了索引字段、字段类型以及其他与数据结构相关的设置。正确理解和配置`schema.xml`对于实现高性能的全文检索系统至关重要。 #### 一、Schema...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    3. **配置字段**:在schema.xml中,为需要进行中文分词的字段指定上述定义的fieldType。 4. **重启Solr**:保存修改后的配置,重启Solr服务,使其生效。 5. **测试验证**:通过Solr的Admin界面或API,提交中文文本...

    solr7.x ikanalyzer pinyin 分词

    2. 在 Solr 的 schema.xml 文件中定义一个字段类型(field type),指定使用 Ikanalyzer 并启用拼音分词。 3. 创建一个字段(field),使用之前定义的字段类型,以便在该字段上应用 Ikanalyzer 和拼音分词。 4. 重新...

    solr 中文分词其IKAnalyzer 支持solr版本5.X-7.X

    描述中提到的"solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本"进一步证实了IKAnalyzer在Solr 7.2版本中的实际应用,这为其他用户提供了信心,确保了在不同Solr版本下的稳定运行。...

    IK分词solr5.0.0

    2. **修改schema.xml**:在Solr的配置文件schema.xml中,我们需要定义一个或多个字段类型(fieldType),并指定使用IK分词器。例如,可以创建一个名为`text_ik`的字段类型,配置如下: ```xml ...

Global site tag (gtag.js) - Google Analytics