`
lxwt909
  • 浏览: 571410 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

跟益达学Solr5之Schema.xml详解

    博客分类:
  • Solr
阅读更多

       schema.xml是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即Norms,是否存储项向量等等。

     schema.xml配置文件的根元素就是schema,有个name属性,name属性值可以随便配,根元素没什么好说的,schema元素下主要有两个标签元素即fieldfieldType,field表示域,用来定义域,fieldType用来定义域类型。

     field元素有很多属性可以配置,我一一做个解释:

   name: 表示域的名称,是强制必须有的属性

     type: 域类型的名称,与fieldType元素的name属性值对应,也是强制必须有的属性,不可省

      required: 表示这个域是否是必须要在document中存在,默认值为false,如果此配置项设为true,则你的document中必须要添加此域,否则你创建索引时会抛异常,例如:Document is missing mandatory field:xxx之类的异常,由于lucene的索引结构是扁平化的,所以一般除了id主键域你可以设置为唯一域,其他域required建议保持默认值false即可

     indexed: true即表示需要对该域进行索引,一般如果你需要在该域上进行查询或排序时,则需要配置为true,默认值为false

     stored: 表示是否需要把域值存储到硬盘上,方便你后续查询时能再次提取出来原样显示给用户

     docValues: 表示此域是否需要添加一个docValues域,这对facet查询,group分组,排序,function查询有好处,尽管这个属性不是必须的,但他能加快索引数据加载,对NRT近实时搜索比较友好,且更节省内存,但它也有一些限制,比如当前docValues域只支持strField,UUIDField,Trie*Field等域,且要求域的域值是单值不能是多值域

     multiValued: 表示这个域是否可以存储多个值,若设置为true,即表示这是一个多值域

     omitNorms: 此属性若设置为true,即表示将忽略域值的长度标准化,忽略在索引过程中对当前域的权重设置,且会节省内存。只有全文本域或者你需要在索引创建过程中设置域的权重时才需要把这个值设为false,对于基本数据类型且不分词的域如intFeild,longField,StrField等默认此属性值就是true,否则默认就是false.

     termVectors: 设置为true即表示需要为该field存储项向量信息,当你需要MoreLikeThis功能时,则需要将此属性值设为true,这样会带来一些性能提升。

     termPositions: 是否存储Term的起始位置信息,这会增大索引的体积,但高亮功能需要依赖此项设置,否则无法高亮

     termOffsets: 表示是否存储索引的位置偏移量,高亮功能需要此项配置,当你使用SpanQuery时,此项配置会影响匹配的结果集

     field里还有两个比较难理解的域,是Solr扩展的,在Lucene中没有的概念,即dynamicField动态域和copyField复制域:

     动态域的属性配置跟普通的field差不多就不多说了,唯一有点区别就是name的属性值,可以用通配符,这样就可以模糊匹配多个域啦,这样设计的目的就是不用频繁的去修改我们的schema.xml中的field配置去增加field域啦,比如之前有个link_s域,某一天你想再增加一个url_s域,那你就需要去修改schema.xml配置文件,由于schema.xml修改过后需要重启tomcat才能生效,重启即意味着程序的中断,这往往是不可接受的。所以引入动态域来避免频繁添加修改域,但前提是你的域需要符合你提前定义的动态域的域名称命名规则哦。

     复制域即表示把某个域的值复制到一个目标域上面,那如果把多个域的值复制到一个目标域上面呢,你可以进行多次复制,体现到XML配置上就是类似这样的配置:

     <copyField source="title" dest="text"/>

     <copyField source="body" dest="text"/>

     如上配置就表示把titlebody这两个域的值全部复制到text这个新域上面,唯一要注意的是,如果你只是复制单个域,那么如果你被复制域本身就是多值域,那么目标域也是多值域,这毋庸置疑,那如果你复制的是多个域,只要其中有一个域是多值域,那么目标域就一定是多值域,这点一定要谨记。

     field说完了,接着说说fieldType元素,它用来定义域类型,solr内置的域类型有StrFieldBoolFieldTrieIntFieldTrieFloatFieldTrieLongFieldTrieDoubleFieldTrieDateFieldBinaryFieldRandomSortFieldTextField等,其他更多域类型请自己查阅Solr API文档。

     StrField:这是一个不分词的字符串域,它支持docValues域,但当为其添加了docValues域,则要求只能是单值域且该域必须存在或者该域有默认值

     BoolFieldboolean域,对应true/false

     TrieIntField, TrieFloatField, TrieLongField, TrieDoubleField这几个都是默认的数字域,precisionStep属性一般用于数字范围查询,precisionStep值越小,则索引时该域的域值分出的token个数越多,会增大硬盘上索引的体积,但它会加快数字范围检索的响应速度,positionIncrementGap属性表示如果当前域是多值域时,多个值之间的间距,单值域,设置此项无意义。

      TrieDateField:显然这是一个日期域类型,不过遗憾的是它支持1995-12-31T23:59:59Z这种格式的日期,比较坑爹,为此我自定义了一个TrieCNDateField域类型,用于支持国人比较喜欢的yyyy-MM-dd HH:mm:ss格式的日期。源码请参见我的上一篇博客。

      BinaryField:经过base64编码的字符串域类型,即你需要把binary数据进行base64编码才能被solr进行索引。

      RandomSortField:随机排序域类型,当你需要实现伪随机排序时,请使用此域类型。

      TextField:是用的最多的一种域类型,它需要进行分词,所以它一般需要配置分词器

。至于具体它如何配置IK分词器,留到后续再说,这里就不展开了。

     

      最后需要说的就是uniqueKey元素,它用来配置document的唯一标识域,即solr是用此域来决定增量导入时是否重复导入,如果id一样,则不会重复导入,或者当你更新索引时,你可以根据指定的uniqueKey域,来确定一个document,然后对该document进行更新。总之,它是用来唯一确定一个document的,跟数据库表里的主键id概念类似,前提是你uniqueKey里配置的域名称你需要提前使用field元素进行定义。

      fieldType元素还有一些额外的属性也需要注意下,比如sortMissingFirst,sortMissingLast等: 

      sortMissingLast表示如果域值为null,在根据当前域进行排序时,把包含null值的document排在最后一位,

      sortMissingFirst:与sortMissingLast对应的,不言自明了,你应该懂的。

      docValues:表示是否为docValues域,一般排序,group,facet时会用到docValues域。

 

      OKschema.xml配置就说这么多了,打完收工!!!都是一些理论性的东西,没有什么代码,会比较枯燥,但看到很多小伙伴们在问,所以觉得还是有必要拿出来说一说,希望能帮到你们!

     

      如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,

或者加裙
一起交流学习!

11
0
分享到:
评论
1 楼 lp1111111 2015-12-15  
码了这么多字辛苦了!真的很棒!  

相关推荐

    跟益达学Solr5之从MySQL数据库导入数据并索引

    《跟益达学Solr5之从MySQL数据库导入数据并索引》这篇文章主要探讨了如何使用Apache Solr 5从MySQL数据库中导入数据并建立索引,以便进行高效的全文搜索。Solr是一款强大的开源搜索服务器,它提供了丰富的查询语言、...

    跟益达学Solr5之索引文件夹下所有文件

    本教程将基于"跟益达学Solr5之索引文件夹下所有文件"的主题,深入探讨如何在Solr5中对文件夹内的所有文件进行索引。 首先,理解索引的概念至关重要。在信息检索领域,索引是一种数据结构,用于快速查找文档中的特定...

    转自:跟益达学Solr5之玩转post.jar

    《跟益达学Solr5之玩转post.jar》这篇博文主要探讨了如何利用Solr的`post.jar`工具进行数据导入,这是Solr提供的一个非常实用的功能,用于快速将各种格式的数据导入到Solr索引中。在这个过程中,我们不仅会了解`post...

    跟益达学Solr5之增量索引MySQL数据库表数据

    本教程以"跟益达学Solr5之增量索引MySQL数据库表数据"为主题,旨在教授如何利用Solr5来实现对MySQL数据库表数据的增量索引,以便在海量数据中快速检索。 首先,我们需要了解Solr的基本架构。Solr运行在Jetty服务器...

    跟益达学Solr5之使用IK分词器

    本篇将围绕“跟益达学Solr5之使用IK分词器”这一主题,详细讲解如何在Solr5中集成并运用IK分词器,以及它的工作原理和优化技巧。 首先,让我们了解下什么是分词器。在中文搜索引擎中,由于中文句子没有明显的分隔符...

    跟益达学Solr5之使用Ansj分词器

    《跟益达学Solr5之使用Ansj分词器》 在中文信息检索和文本分析领域,分词是至关重要的第一步。Solr,作为一款强大的开源搜索平台,提供了多种分词器供用户选择,其中之一就是Ansj分词器。这篇文章将深入探讨如何在...

    跟益达学Solr5之索引网络上远程文件

    《Solr5索引网络上远程文件详解》 在信息技术领域,搜索引擎的高效与便捷是不可或缺的,Apache Solr作为一款强大的开源搜索平台,被广泛应用于各种数据检索场景。本篇我们将深入探讨如何利用Solr5来索引网络上的...

    跟益达学Solr5之批量索引JSON数据

    《Solr5批量索引JSON数据详解》 在大数据时代,高效检索与分析大量文本信息是企业业务中不可或缺的一部分。Apache Solr,作为一款强大的开源搜索引擎,提供了对JSON等多格式数据的快速索引和查询能力。本篇将深度...

    跟益达学Solr5之拼音分词

    《深入学习Solr5:拼音分词解析》 在信息技术高速发展的今天,搜索引擎技术成为了信息检索的重要工具。Apache Solr,作为一个开源的企业级全文搜索引擎,因其高效、灵活和可扩展性,被广泛应用在各种大数据搜索场景...

    跟益达学Solr5之使用MMSeg4J分词器

    《Solr5与MMSeg4J分词器深度解析》 在中文信息检索和文本分析领域,分词是至关重要的第一步。Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习...

    跟益达学Solr5之使用Tika从PDF中提取数据导入索引

    在本篇博文中,“跟益达学Solr5之使用Tika从PDF中提取数据导入索引”,我们将探讨如何利用Apache Solr 5和Tika这两个强大的开源工具,从PDF文档中抽取数据并将其有效地导入到Solr索引库中。Apache Solr是一款功能...

    益达口香糖问卷调查统计表.doc

    【益达口香糖问卷调查统计表】是一个关于消费者对口香糖购买习惯、品牌认知、口味偏好以及营销策略反应的详细分析文档。这个文档旨在深入理解消费者在选择口香糖时考虑的因素,以便益达作为制造商能更好地适应市场...

    Solr 权威指南上下卷

    国内较早接触Solr的技术专家之一,长期致力于Solr的技术研究、实践和生产环境部署,是Solr社区的积极参与者和实践者,以让Solr技术能够在中国得到广泛应用不遗余力并乐此不疲。现就职于国美金融,曾就职于各种大大...

    益达口香糖广告策划书.doc

    【益达口香糖广告策划书】是一份详细的市场分析与广告策略规划文档,旨在为益达口香糖制定有效的营销推广方案。该策划书涵盖了市场分析、广告策略、促销计划以及广告效果预测等多个关键环节。 在【市场分析】部分,...

    实益达:2021年半年度报告.zip

    【标题】:“实益达:2021年半年度报告” 【描述】:“实益达:2021年半年度报告”这份文件是一个压缩包,其中包含的是实益达公司2021年上半年的业绩总结和分析。半年度报告通常会涵盖公司的经营状况、财务数据、...

Global site tag (gtag.js) - Google Analytics