`

Solr 学习(2) ——Solr配置

    博客分类:
  • Solr
阅读更多

solr配置通过两个文件,一个是solrconfig.xml,主要定义solr的处理程序(handler)和一些扩展程序;另一个是schema.xml,主要定义索引的字段和字段类型,下面分别说明两个文件的基本配置。

 

1. solrconfig

其中的配置很多,其实很多都可以保持默认,我只说几个可能会修改到的参数

1.1 dataDir

 

默认在solr/data 文件夹下建立索引 ,在solrconfig中也可修改为你指定的位置,如

 

 

 <dataDir>/var/data/solr</dataDir>

1.2 autoCommit

自动提交是指solr在建索引的时候收到请求并没用立即写入文件,而是先放到缓存中,等收到commit命令时才将缓存中得数据写入索引文件。

自动提交默认关闭,建议打开,这样建索引时省得去考虑何时发送commit命令的麻烦

 

<autoCommit>
      <maxDocs>10000</maxDocs> <!-- 触发自动提交的文档数-->
      <maxTime>86000</maxTime> <!-- 发送一个文档后触发自动提交的最长等待时间 (单位 毫秒)  -->
 </autoCommit>

 1.3 highlight

solr对高亮的默认是<em></em> ,这样其实不是很明显,高亮最好显示成突出的颜色,于是可以改成如下的红色字体显示

 

 

  <highlighting>
          。。。
   <formatter name="html" class="org.apache.solr.highlight.HtmlFormatter" default="true">
    <lst name="defaults">
     <str name="hl.simple.pre"><![CDATA[<font coler=red>]]></str>
     <str name="hl.simple.post"><![CDATA[</font>]]></str>
    </lst>
   </formatter>
  </highlighting>
 

 

2.schema

 

2.1 字段类型 fieldType

 

<fieldType name="pint" class="solr.IntField" omitNorms="true"/>
<fieldType name="plong" class="solr.LongField" omitNorms="true"/>
<fieldType name="pfloat" class="solr.FloatField" omitNorms="true"/>
<fieldType name="pdouble" class="solr.DoubleField" omitNorms="true"/>
<fieldType name="pdate" class="solr.DateField" sortMissingLast="true" omitNorms="true"/>
 

 

添加处理中文字段类型的方法,当然还需要先把相应的jar包放到lib中,具体参考前一篇博文

 

 

<fieldType name="text" class="solr.TextField">
    <analyzer class="org.apahce.lucene.analysis.cn.smart.SmartChineseAnalyzer"/>
</fieldType>

 

 

2.2 字段 Field

 

2.2.1 字段 Field

 

定义需要的字段名和它的类型,如:

 

<field name="id" type="string" indexed="true" stored="true" required="true" /> 
<field name="text" type="text" indexed="true" stored="true"  termVectors="true"  multiValued="false"/>
<field name="name" type="text_general" indexed="true" stored="true"/>
<field name="alphaNameSort" type="alphaOnlySort" indexed="true" stored="false"/>
<field name="manu" type="text_general" indexed="true" stored="true" omitNorms="true"/>
<field name="cat" type="string" indexed="true" stored="true" multiValued="true"/>
<field name="features" type="text_general" indexed="true" stored="true" multiValued="true"/>
<field name="includes" type="text_general" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" />
 

 

参数

 

1 name 字段名

2 type  字段类型 由上面的字段类型给出定义

3 indexed  是否进行索引

4 stored 是否进行保存,如不保存,可以进行搜索,但不能显示该字段的内容

5 required 是否是必须字段,如若是,该字段必须有值,否则索引报错

6 multiValued 是否允许多值

下面三个参数用个图片说明下

7 termVectors 

8 termPosition

9 termOffset

 

如对Canon Power-Shot SD500 进行分词,得到如下的结果和positon,offset等参数,


 

2.2.2 动态字段 dynamic fields

 

动态字段表示,如果字段的定义没有在配置中找到,就在动态字段类型中进行查找,比如  sid_i ,就可以在动态字段类型中进行匹配,表示该字段是整形

 

 <dynamicField name="*_i"  type="int"    indexed="true"  stored="true"/>
<dynamicField name="*_s"  type="string"  indexed="true"  stored="true"/>
<dynamicField name="*_l"  type="long"   indexed="true"  stored="true"/>
<dynamicField name="*_t"  type="text"    indexed="true"  stored="true"/>
<dynamicField name="*_txt" type="text_general"    indexed="true"  stored="true" multiValued="true"/>
<dynamicField name="*_en"  type="text_en"    indexed="true"  stored="true" multiValued="true" />
<dynamicField name="*_b"  type="boolean" indexed="true"  stored="true"/>
<dynamicField name="*_f"  type="float"  indexed="true"  stored="true"/>
 <dynamicField name="*_d"  type="double" indexed="true"  stored="true"/>

 

 

 

2.2.3 复制字段 copy fields

 

复制源字段到目标字段,maxchars 限制复制的最大长度

 <copyField source="body" dest="teaser" maxChars="300"/>

 

  这样进行复制,就可以 把所有字段放在一起,这样搜索的时候就可以不用很复杂的查询组合就可以在所有字段中搜索

 

 <copyField source="*" dest="text_t"/>
 


2.3 其它参数

 

 

<uniqueKey>id</uniqueKey>

文档的唯一标识, 必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。这相当于数据库中得主键,如建索引时遇到重复的,则会覆盖掉以前的记录

 

<defaultSearchField>text</defaultSearchField>

 如果搜索参数中没有指定具体的field,那么这是默认的域。

 

 

<solrQueryParser defaultOperator="OR" />

配置搜索参数短语间的逻辑,可以是"AND|OR"。 

 

 

 

 

 

 

 

 

  • 大小: 33.4 KB
分享到:
评论
1 楼 青春的、脚步 2012-05-18  
求解释termVectors

相关推荐

    手把手教你 对 solr8 配置用户登录验证 涉及到的配置文件

    首先,我们需要了解 Solr 的安全组件——Jetty 容器。Solr 默认使用 Jetty 作为其 Web 服务器,Jetty 提供了基于角色的访问控制(RBAC)和身份验证机制。我们将通过修改配置文件来实现用户登录验证。 1. **配置文件...

    Solr学习笔记(三)Solr客户端开发实例

    Solr学习笔记(三)——Solr客户端开发实例 在本文中,我们将深入探讨Solr客户端的开发,以便更好地理解如何在实际项目中利用Solr的强大功能。Solr是一款开源的全文搜索引擎,提供了高效的搜索和索引功能。通过Solr...

    solr-8.5.2.zip

    在本案例中,我们讨论的是 Solr 的一个特定版本——"solr-8.5.2.zip",这是一个已经配置好的版本,适用于快速部署和使用。这个压缩包包含了对 MySQL 数据库的集成配置,以及针对中文分词的支持,还配置了 Solr 的...

    支持solr5.5 solr6.0中IK分词需要的资料

    在Solr中,分词器(Tokenizer)是文本分析的重要组成部分,它负责将输入的原始文本拆分成可搜索的独立单元——词语。IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为...

    Solr6.2官方版参考手册

    ### Solr 6.2 官方版参考手册知识点概览 #### 一、Solr简介与概述 **Apache Solr** 是一个高度可扩展且高性能的企业级...通过官方手册的学习,开发者可以更好地掌握 Solr 的使用技巧,从而构建出高效稳定的搜索应用。

    图解solr5.0.1 war包方式安装【原创】

    - **复制配置文件**:将`solr-5.1.0\server\solr\configsets\sample_techproducts_configs\conf`目录下的所有内容复制到`mycore`文件夹中。 - **通过Web界面创建Core**:在Solr管理界面上创建一个新的Core,名称为...

    solr中文分词器

    在Solr中,分词器(Tokenizer)是分析器(Analyzer)的一部分,负责将输入的文本拆分成可被索引的基本单元——词(Token)。中文分词器的引入解决了英文分词相对简单,而中文以字为基本单位,需要特殊处理才能正确...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    首先,我们来理解一下mmseg4j-solr的核心——mmseg(Maximum Matching Segment,最大匹配法)。这是一种广泛应用于中文分词的算法,它的基本思想是通过寻找最长的可匹配词汇来进行分词。mmseg4j是Java实现的中文分...

    solr-7.1.0.tgz

    这个 `solr-7.1.0.tgz` 文件是 Solr 的一个特定版本——7.1.0,在 Linux 平台上的压缩包。这个版本在描述中被称为“很好用”,意味着它在实际应用中表现稳定且功能强大。 ### Solr 简介 Solr 是基于 Lucene 的搜索...

    Apache Solr High Performance.pdf&Solr;+In+Action+2013.pdf英文版

    这两本电子书——"Apache Solr High Performance.pdf" 和 "Solr In Action 2013.pdf" 提供了深入的Solr知识,帮助读者理解和优化Solr的性能。 "Apache Solr High Performance"可能涵盖了如何最大化Solr的性能,包括...

    Window下Solr1.4安装部署

    ### Window下Solr1.4安装部署的知识点详解 #### 一、Solr简介 Apache Solr 是一个高性能、基于Lucene的全文...通过以上步骤,可以在Windows环境下成功部署并配置Solr 1.4版本,为后续的应用开发提供基础的搜索服务。

    lucene solr框架代码实例(可直接运行)

    这就引出了我们的第二个主角——Solr。Solr是基于Lucene构建的企业级搜索平台,它为Lucene提供了更高级的API和更易用的管理界面。Solr的核心特性包括: 1. **配置友好**:Solr通过XML配置文件定义索引字段和处理...

    solr-4.10.3+ik分词器

    在标题“solr-4.10.3+ik分词器”中,我们看到的是Solr的一个具体版本——4.10.3,以及与之配合使用的IK分词器。这个版本的Solr包含了多项优化和改进,例如更稳定的性能、增强的搜索特性以及对各种数据源的更好支持。...

    solr5的中文分词器ik-analyzer-solr5-master.zip

    2. **配置Solr**:在Solr的`schema.xml`或`managed-schema`文件中,配置IK Analyzer作为字段类型分析器。 3. **自定义词典**:可以创建自定义词典,添加行业术语、品牌名称等,提高分词准确度。 4. **启动Solr**:...

    solr5.3.1 导入mysql数据

    首先,我们需要理解 Solr 的核心组件——Schema.xml 文件。这是 Solr 的模式定义文件,它定义了索引字段、字段类型以及字段的相关设置。在导入 MySQL 数据之前,我们需要根据数据库表结构来定制 Schema.xml 文件。...

    k-analyzer-solr solr分词器

    Solr分词器是搜索引擎Apache Solr中的一个重要组件,它负责对输入的文本进行分析,将其拆分成可索引的基本单元——词语。"k-analyzer-solr" 是一个特定的分词器实现,用于优化Solr的文本处理流程。在Solr中,分词器...

    solr7.3.1中文分词器

    其次,配置Solr的schema.xml文件,声明使用IK分词器作为字段的分析器;最后,根据需求调整IK分词器的配置文件,比如添加自定义词典或者设置分词模式。 总的来说,这个压缩包提供了Solr 7.3.1处理中文内容所需的关键...

    Solr In Action 2013

    2. 选择Solr的理由:书中的内容会详细说明为什么选择Solr,以及其功能概述。NoSQL技术是为了针对特定类型的数据优化解决特定类型的问题而设计的。它们通常不会强制所有数据适应曾经的标准关系模型,而是根据特定类型...

    apache-solr-dataimporthandler-extras-1.4.0.jar.zip

    在给定的压缩包“apache-solr-dataimporthandler-extras-1.4.0.jar.zip”中,主要包含了一个名为“apache-solr-dataimporthandler-extras-1.4.0.jar”的文件,这个文件是Solr的一个重要组件——DataImportHandler...

Global site tag (gtag.js) - Google Analytics