- 浏览: 1859888 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
yeying12:
强大
HTTP协议详解,你所不知道的 -
夏雪纷纷:
据我所知,9月12日有个对于DXperience 2013新功 ...
DXperience 9.1.3 -
Emy:
现在面临第一个坎。。
IT高薪者所具备的人格魅力 -
yangxiutian:
很详细,楼主很会总结。
IE下 z-index 的各种坑 -
idleone:
真心求指教,全选怎么实现
Android开发之ListView,加入CheckBox(复选框),实现选择列表
Solr笔记(2)_Schema.xml和solrconfig.xml分析
<p><img src="http://hi.csdn.net/attachment/201007/10/0_1278753163ddd7.gif" alt=""></p>
<p></p>
<p>现在我们开始研究载入的数据部分(importing data)</p>
<p></p>
<p>在正式开始前,我们先介绍一个存储了大量音乐媒体的网站<a href="http://musicbrainz.org">http://musicbrainz.org</a> ,</p>
<p>这里的数据都是免费的,一个大型开放社区提供。</p>
<p>MusicBrainz每天都提供一个数据快照(snapshot)的SQL文件,这些数据可以被导入PostgreSQL数据库中。</p>
<p></p>
<p><strong><span style="font-size: medium;">一、字段配置(schema)</span></strong></p>
<p><strong></strong></p>
<p></p>
<p>schema.xml位于solr/conf/目录下,类似于数据表配置文件,</p>
<p>定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。</p>
<p></p>
<p>1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。</p>
<ul>
<li>name:就是这个FieldType的名称。</li>
<li>class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。</li>
</ul>
<p><textarea cols="93" rows="16" name="code" class="xhtml"><schema name="example" version="1.2">
<types>
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
<fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/>
<fieldtype name="binary" class="solr.BinaryField"/>
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
<fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
<fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
...
</types>
...
</schema></textarea></p>
<p></p>
<p>必要的时候fieldType还需要自己定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤,如下:</p>
<p><textarea cols="95" rows="24" name="code" class="xhtml"><fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
</analyzer>
</fieldType>
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!--这个分词包是空格分词,在向索引库添加text类型的索引时,Solr会首先用空格进行分词
然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果,才会加入到索引库中以备查询。
注意:Solr的analysis包并没有带支持中文的包,需要自己添加中文分词器,google下。
-->
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<!-- in this example, we will only use synonyms at query time
<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt"
ignoreCase="true" expand="false"/>
-->
<!-- Case insensitive stop word removal.
add enablePositionIncrements=true in both the index and query
analyzers to leave a 'gap' for more accurate phrase queries.
-->
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"
generateNumberParts="1" catenateWords="1" catenateNumbers="1"
catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English"
protected="protwords.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true"
expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"
generateNumberParts="1" catenateWords="0" catenateNumbers="0"
catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English"
protected="protwords.txt"/>
</analyzer>
</fieldType></textarea></p>
<p></p>
<p>2、再来看下fields节点内定义具体的字段(类似数据库的字段),含有以下属性:</p>
<ul>
<li>name:字段名</li>
<li>type:之前定义过的各种FieldType</li>
<li>indexed:是否被索引</li>
<li>stored:是否被存储(如果不需要存储相应字段值,尽量设为false)</li>
<li>multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)</li>
</ul>
<p><textarea cols="92" rows="9" name="code" class="xhtml"><fields>
<field name="id" type="integer" indexed="true" stored="true" required="true" />
<field name="name" type="text" indexed="true" stored="true" />
<field name="summary" type="text" indexed="true" stored="true" />
<field name="author" type="string" indexed="true" stored="true" />
<field name="date" type="date" indexed="false" stored="true" />
<field name="content" type="text" indexed="true" stored="false" />
<field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" />
<!--拷贝字段-->
<field name="all" type="text" indexed="true" stored="false" multiValued="true"/>
</fields></textarea></p>
<p></p>
<p>3、建议建立一个拷贝字段,将所有的 全文本 字段复制到一个字段中,以便进行统一的检索:</p>
<p> 以下是拷贝设置:</p>
<p><textarea cols="50" rows="1" name="code" class="xhtml"><copyField source="name" dest="all"/>
<copyField source="summary" dest="all"/></textarea></p>
<p></p>
<p>4、动态字段,没有具体名称的字段,用dynamicField字段</p>
<p>如:name为*_i,定义它的type为int,那么在使用这个字段的时候,任务以_i结果的字段都被认为符合这个定义。如name_i, school_i</p>
<p><textarea cols="83" rows="7" name="code" class="xhtml"> <dynamicField name="*_i" type="int" indexed="true" stored="true"/>
<dynamicField name="*_s" type="string" indexed="true" stored="true"/>
<dynamicField name="*_l" type="long" indexed="true" stored="true"/>
<dynamicField name="*_t" type="text" indexed="true" stored="true"/>
<dynamicField name="*_b" type="boolean" indexed="true" stored="true"/>
<dynamicField name="*_f" type="float" indexed="true" stored="true"/>
<dynamicField name="*_d" type="double" indexed="true" stored="true"/>
<dynamicField name="*_dt" type="date" indexed="true" stored="true"/></textarea></p>
<p></p>
<p></p>
<p></p>
<p></p>
<p><strong><span style="font-size: medium;">schema.xml文档注释中的信息:</span></strong></p>
<p></p>
<p></p>
<p></p>
<p>1、为了改进性能,可以采取以下几种措施:</p>
<ul>
<li>将所有只用于搜索的,而不需要作为结果的field(特别是一些比较大的field)的stored设置为false</li>
<li>将不需要被用于搜索的,而只是作为结果返回的field的indexed设置为false</li>
<li>删除所有不必要的copyField声明</li>
<li>为了索引字段的最小化和搜索的效率,将所有的 text fields的index都设置成field,然后使用copyField将他们都复制到一个总的 text field上,然后对他进行搜索。</li>
<li>为了最大化搜索效率,使用java编写的客户端与solr交互(使用流通信)</li>
<li>在服务器端运行JVM(省去网络通信),使用尽可能高的Log输出等级,减少日志量。</li>
</ul>
<p>2、<span class="m"><span style="color: #0000ff;"><</span></span><span style="color: #990000;"><span class="t">schema</span><span class="t"> name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>example</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> version</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1.2</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m">></span></span></p>
<ul>
<li>name:标识这个schema的名字</li>
<li>version:现在版本是1.2</li>
</ul>
<p>3、filedType</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">fieldType</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>string</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.StrField</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> sortMissingLast</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> omitNorms</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<ul>
<li>name:标识而已。</li>
<li>class和其他属性决定了这个fieldType的实际行为。(class以solr开始的,都是在org.appache.solr.analysis包下)</li>
</ul>
<p>可选的属性:</p>
<ul>
<li>sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上(包括:string,boolean,sint,slong,sfloat,sdouble,pdate)。</li>
<li>sortMissingLast="true",没有该field的数据排在有该field的数据之后,而不管请求时的排序规则。</li>
<li>sortMissingFirst="true",跟上面倒过来呗。</li>
<li>2个值默认是设置成false</li>
</ul>
<p></p>
<p>StrField类型不被分析,而是被逐字地索引/存储。</p>
<p>StrField和TextField都有一个可选的属性“compressThreshold”,保证压缩到不小于一个大小(单位:char)</p>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span style="color: #990000;"><span class="t">fieldType</span><span class="t"> name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.TextField</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> positionIncrementGap</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>100</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m">></span></span></p>
<p></p>
<p>solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括 一个分词器(tokenizer)和多个过滤器(filter)</p>
<p></p>
<ul>
<li>positionIncrementGap:可选属性,定义在同一个文档中此类型数据的空白间隔,避免短语匹配错误。</li>
</ul>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">tokenizer</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.WhitespaceTokenizerFactory</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>空格分词,精确匹配。</p>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">filter</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.WordDelimiterFilterFactory</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> generateWordParts</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> generateNumberParts</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> catenateWords</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> catenateNumbers</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> catenateAll</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>0</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> splitOnCaseChange</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>在分词和匹配时,考虑 "-"连字符,字母数字的界限,非字母数字字符,这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">filter</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.SynonymFilterFactory</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> synonyms</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>synonyms.txt</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> ignoreCase</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> expand</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span></p>
<p><span style="color: #000000;">同义词</span></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">filter</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.StopFilterFactory</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> ignoreCase</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> words</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>stopwords.txt</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> enablePositionIncrements</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>在禁用字(stopword)删除后,在短语间增加间隔</p>
<p>stopword:即在建立索引过程中(建立索引和搜索)被忽略的词,比如is this等常用词。在conf/stopwords.txt维护。</p>
<p></p>
<p></p>
<p></p>
<p>4、fields</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">field</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>id</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>string</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> indexed</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> stored</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> required</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span></p>
<ul>
<li>name:标识而已。</li>
<li>type:先前定义的类型。</li>
<li>indexed:是否被用来建立索引(关系到搜索和排序)</li>
<li>stored:是否储存</li>
<li>compressed:[false],是否使用gzip压缩(只有TextField和StrField可以压缩)</li>
<li>mutiValued:是否包含多个值</li>
<li>omitNorms:是否忽略掉Norm,可以节省内存空间,只有全文本field和need an index-time boost的field需要norm。(具体没看懂,注释里有矛盾)</li>
<li>termVectors:[false],当设置true,会存储 term vector。当使用MoreLikeThis,用来作为相似词的field应该存储起来。</li>
<li>termPositions:存储 term vector中的地址信息,会消耗存储开销。</li>
<li>termOffsets:存储 term vector 的偏移量,会消耗存储开销。</li>
<li>default:如果没有属性需要修改,就可以用这个标识下。</li>
</ul>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">field</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> indexed</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> stored</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>false</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> multiValued</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>包罗万象(有点夸张)的field,包含所有可搜索的text fields,通过copyField实现。</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>cat</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>name</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>manu</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>features</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>includes</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<p>在添加索引时,将所有被拷贝field(如cat)中的数据拷贝到text field中</p>
<p>作用:</p>
<ul>
<li>将多个field的数据放在一起同时搜索,提供速度</li>
<li>将一个field的数据拷贝到另一个,可以用2种不同的方式来建立索引。</li>
</ul>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">dynamicField</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>*_i</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>int</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> indexed</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> stored</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span></p>
<p></p>
<p>如果一个field的名字没有匹配到,那么就会用动态field试图匹配定义的各种模式。</p>
<ul>
<li>"*"只能出现在模式的最前和最后</li>
<li>较长的模式会被先去做匹配</li>
<li>如果2个模式同时匹配上,最先定义的优先</li>
</ul>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">dynamicField</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>*</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>ignored</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> multiValued<span class="m"><span style="color: #0000ff;">="</span></span><span style="color: #000000;"><strong>true</strong></span><span class="m"><span style="color: #0000ff;">"</span></span></span></span><span style="color: #0000ff;"><span class="m"> /></span></span></p>
<p><span style="color: #0000ff;"><span class="m">如果通过上面的匹配都没找到,可以定义这个,然后定义个type,当String处理。(一般不会发生)</span></span></p>
<p><span style="color: #0000ff;"><span class="m">但若不定义,找不到匹配会报错。</span></span></p>
<p></p>
<p></p>
<p>5、其他一些标签</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">uniqueKey</span></span><span class="m"><span style="color: #0000ff;">></span></span><span class="tx"><strong>id</strong></span><span class="m"><span style="color: #0000ff;"></</span></span><span class="t"><span style="color: #990000;">uniqueKey</span></span><span class="m"><span style="color: #0000ff;">></span></span> </p>
<p>文档的唯一标识,必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。</p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">defaultSearchField</span></span><span class="m"><span style="color: #0000ff;">></span></span><span class="tx"><strong>text</strong></span><span class="m"><span style="color: #0000ff;"></</span></span><span class="t"><span style="color: #990000;">defaultSearchField</span></span><span class="m"><span style="color: #0000ff;">></span></span> </p>
<p>如果搜索参数中没有指定具体的field,那么这是默认的域。</p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">solrQueryParser</span></span> <span class="t"><span style="color: #990000;">defaultOperator</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>OR</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>配置搜索参数短语间的逻辑,可以是"AND|OR"。</p>
<p></p>
<p></p>
<p></p>
<p><strong><span style="font-size: medium;">二、solrconfig.xml</span></strong></p>
<p></p>
<p>1、索引配置</p>
<p></p>
<p>mainIndex 标记段定义了控制Solr索引处理的一些因素.</p>
<ul>
<li>
<p>useCompoundFile:通过将很多 Lucene 内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目,代价是降低了性能。除非是应用程序用完了文件句柄,否则 <code>false</code> 的默认值应该就已经足够。 </p>
</li>
<li>useCompoundFile:通过将很多Lucene内部文件整合到一个文件,来减少使用中的文件的数量。这可有助于减少Solr使用的文件句柄的数目,代价是降低了性能。除非是应用程序用完了文件句柄,否则false的默认值应该就已经足够了。</li>
<li>mergeFacor:决定Lucene段被合并的频率。较小的值(最小为2)使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。(典型的 时间与空间 的平衡配置)</li>
<li>maxBufferedDocs:在合并内存中文档和创建新段之前,定义所需索引的最小文档数。段 是用来存储索引信息的Lucene文件。较大的值可使索引时间变快但会牺牲较多内存。</li>
<li>maxMergeDocs:控制可由Solr合并的 Document 的最大数。较小的值(<10,000)最适合于具有大量更新的应用程序。</li>
<li>maxFieldLength:对于给定的Document,控制可添加到Field的最大条目数,进而阶段该文档。如果文档可能会很大,就需要增加这个数值。然后,若将这个值设置得过高会导致内存不足错误。</li>
<li>unlockOnStartup:告知Solr忽略在多线程环境中用来保护索引的锁定机制。在某些情况下,索引可能会由于不正确的关机或其他错误而一直处于锁定,这就妨碍了添加和更新。将其设置为true可以禁用启动索引,进而允许进行添加和更新。(锁机制)</li>
</ul>
<p></p>
<p>2、查询处理配置</p>
<p></p>
<p>query标记段中以下一些与缓存无关的特性:</p>
<ul>
<li>maxBooleanClauses:定义可组合在一起形成以个查询的字句数量的上限。正常情况1024已经足够。如果应用程序大量使用了通配符或范围查询,增加这个限制将能避免当值超出时,抛出TooMangClausesException。</li>
<li>enableLazyFieldLoading:如果应用程序只会检索Document上少数几个Field,那么可以将这个属性设置为true。懒散加载的一个常见场景大都发生在应用程序返回一些列搜索结果的时候,用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的现实常常只需要现实很短的一段信息。若是检索大型的Document,除非必需,否则就应该避免加载整个文档。</li>
</ul>
<p></p>
<p>query部分负责定义与在Solr中发生的时间相关的几个选项:</p>
<p></p>
<p></p>
<p>概念:Solr(实际上是Lucene)使用称为Searcher的Java类来处理Query实例。Searcher将索引内容相关的数据加载到内存中。根据索引、CPU已经可用内存的大小,这个过程可能需要较长的一段时间。要改进这一设计和显著提高性能,Solr引入了一张“温暖”策略,即把这些新的Searcher联机以便为现场用户提供查询服务之前,先对它们进行“热身”。</p>
<ul>
<li>newSearcher和firstSearcher事件,可以使用这些事件来制定实例化新Searcher或第一个Searcher时,应该执行哪些查询。如果应用程序期望请求某些特定的查询,那么在创建新Searcher或第一个Searcher时就应该反注释这些部分并执行适当的查询。</li>
</ul>
<p></p>
<p>query中的智能缓存:</p>
<p></p>
<ul>
<li>filterCache:通过存储一个匹配给定查询的文档 id 的无序集,过滤器让 Solr 能够有效提高查询的性能。缓存这些过滤器意味着对Solr的重复调用可以导致结果集的快速查找。更常见的场景是缓存一个过滤器,然后再发起后续的精炼查询,这种查询能使用过滤器来限制要搜索的文档数。</li>
<li>queryResultCache:为查询、排序条件和所请求文档的数量缓存文档 id 的有序集合。</li>
<li>documentCache:缓存Lucene Document,使用内部Lucene文档id(以便不与Solr唯一id相混淆)。由于Lucene的内部Document id 可以因索引操作而更改,这种缓存不能自热。</li>
<li>Named caches:命名缓存是用户定义的缓存,可被 Solr定制插件 所使用。</li>
</ul>
<p>其中filterCache、queryResultCache、Named caches(如果实现了org.apache.solr.search.CacheRegenerator)可以自热。</p>
<p>每个缓存声明都接受最多四个属性:</p>
<ul>
<li>class:是缓存实现的Java名</li>
<li>size:是最大的条目数</li>
<li>initialSize:是缓存的初始大小</li>
<li>autoWarmCount:是取自旧缓存以预热新缓存的条目数。如果条目很多,就意味着缓存的hit会更多,只不过需要花更长的预热时间。</li>
</ul>
<p>对于所有缓存模式而言,在设置缓存参数时,都有必要在内存、cpu和磁盘访问之间进行均衡。统计信息管理页(管理员界面的Statistics)对于分析缓存的 hit-to-miss 比例以及微调缓存大小的统计数据都非常有用。而且,并非所有应用程序都会从缓存受益。实际上,一些应用程序反而会由于需要将某个永远也用不到的条目存储在缓存中这一额外步骤而受到影响。</p>
<p></p>
<p>现在我们开始研究载入的数据部分(importing data)</p>
<p></p>
<p>在正式开始前,我们先介绍一个存储了大量音乐媒体的网站<a href="http://musicbrainz.org">http://musicbrainz.org</a> ,</p>
<p>这里的数据都是免费的,一个大型开放社区提供。</p>
<p>MusicBrainz每天都提供一个数据快照(snapshot)的SQL文件,这些数据可以被导入PostgreSQL数据库中。</p>
<p></p>
<p><strong><span style="font-size: medium;">一、字段配置(schema)</span></strong></p>
<p><strong></strong></p>
<p></p>
<p>schema.xml位于solr/conf/目录下,类似于数据表配置文件,</p>
<p>定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。</p>
<p></p>
<p>1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。</p>
<ul>
<li>name:就是这个FieldType的名称。</li>
<li>class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。</li>
</ul>
<p><textarea cols="93" rows="16" name="code" class="xhtml"><schema name="example" version="1.2">
<types>
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
<fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/>
<fieldtype name="binary" class="solr.BinaryField"/>
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
<fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
<fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true"
positionIncrementGap="0"/>
...
</types>
...
</schema></textarea></p>
<p></p>
<p>必要的时候fieldType还需要自己定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤,如下:</p>
<p><textarea cols="95" rows="24" name="code" class="xhtml"><fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
</analyzer>
</fieldType>
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!--这个分词包是空格分词,在向索引库添加text类型的索引时,Solr会首先用空格进行分词
然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果,才会加入到索引库中以备查询。
注意:Solr的analysis包并没有带支持中文的包,需要自己添加中文分词器,google下。
-->
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<!-- in this example, we will only use synonyms at query time
<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt"
ignoreCase="true" expand="false"/>
-->
<!-- Case insensitive stop word removal.
add enablePositionIncrements=true in both the index and query
analyzers to leave a 'gap' for more accurate phrase queries.
-->
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"
generateNumberParts="1" catenateWords="1" catenateNumbers="1"
catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English"
protected="protwords.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true"
expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"
generateNumberParts="1" catenateWords="0" catenateNumbers="0"
catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English"
protected="protwords.txt"/>
</analyzer>
</fieldType></textarea></p>
<p></p>
<p>2、再来看下fields节点内定义具体的字段(类似数据库的字段),含有以下属性:</p>
<ul>
<li>name:字段名</li>
<li>type:之前定义过的各种FieldType</li>
<li>indexed:是否被索引</li>
<li>stored:是否被存储(如果不需要存储相应字段值,尽量设为false)</li>
<li>multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)</li>
</ul>
<p><textarea cols="92" rows="9" name="code" class="xhtml"><fields>
<field name="id" type="integer" indexed="true" stored="true" required="true" />
<field name="name" type="text" indexed="true" stored="true" />
<field name="summary" type="text" indexed="true" stored="true" />
<field name="author" type="string" indexed="true" stored="true" />
<field name="date" type="date" indexed="false" stored="true" />
<field name="content" type="text" indexed="true" stored="false" />
<field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" />
<!--拷贝字段-->
<field name="all" type="text" indexed="true" stored="false" multiValued="true"/>
</fields></textarea></p>
<p></p>
<p>3、建议建立一个拷贝字段,将所有的 全文本 字段复制到一个字段中,以便进行统一的检索:</p>
<p> 以下是拷贝设置:</p>
<p><textarea cols="50" rows="1" name="code" class="xhtml"><copyField source="name" dest="all"/>
<copyField source="summary" dest="all"/></textarea></p>
<p></p>
<p>4、动态字段,没有具体名称的字段,用dynamicField字段</p>
<p>如:name为*_i,定义它的type为int,那么在使用这个字段的时候,任务以_i结果的字段都被认为符合这个定义。如name_i, school_i</p>
<p><textarea cols="83" rows="7" name="code" class="xhtml"> <dynamicField name="*_i" type="int" indexed="true" stored="true"/>
<dynamicField name="*_s" type="string" indexed="true" stored="true"/>
<dynamicField name="*_l" type="long" indexed="true" stored="true"/>
<dynamicField name="*_t" type="text" indexed="true" stored="true"/>
<dynamicField name="*_b" type="boolean" indexed="true" stored="true"/>
<dynamicField name="*_f" type="float" indexed="true" stored="true"/>
<dynamicField name="*_d" type="double" indexed="true" stored="true"/>
<dynamicField name="*_dt" type="date" indexed="true" stored="true"/></textarea></p>
<p></p>
<p></p>
<p></p>
<p></p>
<p><strong><span style="font-size: medium;">schema.xml文档注释中的信息:</span></strong></p>
<p></p>
<p></p>
<p></p>
<p>1、为了改进性能,可以采取以下几种措施:</p>
<ul>
<li>将所有只用于搜索的,而不需要作为结果的field(特别是一些比较大的field)的stored设置为false</li>
<li>将不需要被用于搜索的,而只是作为结果返回的field的indexed设置为false</li>
<li>删除所有不必要的copyField声明</li>
<li>为了索引字段的最小化和搜索的效率,将所有的 text fields的index都设置成field,然后使用copyField将他们都复制到一个总的 text field上,然后对他进行搜索。</li>
<li>为了最大化搜索效率,使用java编写的客户端与solr交互(使用流通信)</li>
<li>在服务器端运行JVM(省去网络通信),使用尽可能高的Log输出等级,减少日志量。</li>
</ul>
<p>2、<span class="m"><span style="color: #0000ff;"><</span></span><span style="color: #990000;"><span class="t">schema</span><span class="t"> name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>example</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> version</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1.2</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m">></span></span></p>
<ul>
<li>name:标识这个schema的名字</li>
<li>version:现在版本是1.2</li>
</ul>
<p>3、filedType</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">fieldType</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>string</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.StrField</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> sortMissingLast</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> omitNorms</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<ul>
<li>name:标识而已。</li>
<li>class和其他属性决定了这个fieldType的实际行为。(class以solr开始的,都是在org.appache.solr.analysis包下)</li>
</ul>
<p>可选的属性:</p>
<ul>
<li>sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上(包括:string,boolean,sint,slong,sfloat,sdouble,pdate)。</li>
<li>sortMissingLast="true",没有该field的数据排在有该field的数据之后,而不管请求时的排序规则。</li>
<li>sortMissingFirst="true",跟上面倒过来呗。</li>
<li>2个值默认是设置成false</li>
</ul>
<p></p>
<p>StrField类型不被分析,而是被逐字地索引/存储。</p>
<p>StrField和TextField都有一个可选的属性“compressThreshold”,保证压缩到不小于一个大小(单位:char)</p>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span style="color: #990000;"><span class="t">fieldType</span><span class="t"> name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.TextField</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> positionIncrementGap</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>100</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m">></span></span></p>
<p></p>
<p>solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括 一个分词器(tokenizer)和多个过滤器(filter)</p>
<p></p>
<ul>
<li>positionIncrementGap:可选属性,定义在同一个文档中此类型数据的空白间隔,避免短语匹配错误。</li>
</ul>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">tokenizer</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.WhitespaceTokenizerFactory</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>空格分词,精确匹配。</p>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">filter</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.WordDelimiterFilterFactory</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> generateWordParts</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> generateNumberParts</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> catenateWords</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> catenateNumbers</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> catenateAll</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>0</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> splitOnCaseChange</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>1</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>在分词和匹配时,考虑 "-"连字符,字母数字的界限,非字母数字字符,这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">filter</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.SynonymFilterFactory</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> synonyms</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>synonyms.txt</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> ignoreCase</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> expand</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span></p>
<p><span style="color: #000000;">同义词</span></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">filter</span></span> <span class="t"><span style="color: #990000;">class</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>solr.StopFilterFactory</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> ignoreCase</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> words</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>stopwords.txt</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> enablePositionIncrements</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>在禁用字(stopword)删除后,在短语间增加间隔</p>
<p>stopword:即在建立索引过程中(建立索引和搜索)被忽略的词,比如is this等常用词。在conf/stopwords.txt维护。</p>
<p></p>
<p></p>
<p></p>
<p>4、fields</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">field</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>id</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>string</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> indexed</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> stored</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> required</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span></p>
<ul>
<li>name:标识而已。</li>
<li>type:先前定义的类型。</li>
<li>indexed:是否被用来建立索引(关系到搜索和排序)</li>
<li>stored:是否储存</li>
<li>compressed:[false],是否使用gzip压缩(只有TextField和StrField可以压缩)</li>
<li>mutiValued:是否包含多个值</li>
<li>omitNorms:是否忽略掉Norm,可以节省内存空间,只有全文本field和need an index-time boost的field需要norm。(具体没看懂,注释里有矛盾)</li>
<li>termVectors:[false],当设置true,会存储 term vector。当使用MoreLikeThis,用来作为相似词的field应该存储起来。</li>
<li>termPositions:存储 term vector中的地址信息,会消耗存储开销。</li>
<li>termOffsets:存储 term vector 的偏移量,会消耗存储开销。</li>
<li>default:如果没有属性需要修改,就可以用这个标识下。</li>
</ul>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">field</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> indexed</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> stored</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>false</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> multiValued</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>包罗万象(有点夸张)的field,包含所有可搜索的text fields,通过copyField实现。</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>cat</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>name</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>manu</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>features</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<div class="e">
<div style="">
<span class="b"><strong><span style="color: #ff0000; font-family: Courier New;"></span></strong></span> <span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">copyField</span></span> <span class="t"><span style="color: #990000;">source</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>includes</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> dest</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>text</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </div>
</div>
<p>在添加索引时,将所有被拷贝field(如cat)中的数据拷贝到text field中</p>
<p>作用:</p>
<ul>
<li>将多个field的数据放在一起同时搜索,提供速度</li>
<li>将一个field的数据拷贝到另一个,可以用2种不同的方式来建立索引。</li>
</ul>
<p></p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">dynamicField</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>*_i</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>int</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> indexed</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> stored</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>true</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span></p>
<p></p>
<p>如果一个field的名字没有匹配到,那么就会用动态field试图匹配定义的各种模式。</p>
<ul>
<li>"*"只能出现在模式的最前和最后</li>
<li>较长的模式会被先去做匹配</li>
<li>如果2个模式同时匹配上,最先定义的优先</li>
</ul>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">dynamicField</span></span> <span class="t"><span style="color: #990000;">name</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>*</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> type</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>ignored</strong><span class="m"><span style="color: #0000ff;">"</span></span><span class="t"><span style="color: #990000;"> multiValued<span class="m"><span style="color: #0000ff;">="</span></span><span style="color: #000000;"><strong>true</strong></span><span class="m"><span style="color: #0000ff;">"</span></span></span></span><span style="color: #0000ff;"><span class="m"> /></span></span></p>
<p><span style="color: #0000ff;"><span class="m">如果通过上面的匹配都没找到,可以定义这个,然后定义个type,当String处理。(一般不会发生)</span></span></p>
<p><span style="color: #0000ff;"><span class="m">但若不定义,找不到匹配会报错。</span></span></p>
<p></p>
<p></p>
<p>5、其他一些标签</p>
<p></p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">uniqueKey</span></span><span class="m"><span style="color: #0000ff;">></span></span><span class="tx"><strong>id</strong></span><span class="m"><span style="color: #0000ff;"></</span></span><span class="t"><span style="color: #990000;">uniqueKey</span></span><span class="m"><span style="color: #0000ff;">></span></span> </p>
<p>文档的唯一标识,必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。</p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">defaultSearchField</span></span><span class="m"><span style="color: #0000ff;">></span></span><span class="tx"><strong>text</strong></span><span class="m"><span style="color: #0000ff;"></</span></span><span class="t"><span style="color: #990000;">defaultSearchField</span></span><span class="m"><span style="color: #0000ff;">></span></span> </p>
<p>如果搜索参数中没有指定具体的field,那么这是默认的域。</p>
<p><span class="m"><span style="color: #0000ff;"><</span></span><span class="t"><span style="color: #990000;">solrQueryParser</span></span> <span class="t"><span style="color: #990000;">defaultOperator</span></span><span class="m"><span style="color: #0000ff;">="</span></span><strong>OR</strong><span style="color: #0000ff;"><span class="m">"</span><span class="m"> /></span></span> </p>
<p>配置搜索参数短语间的逻辑,可以是"AND|OR"。</p>
<p></p>
<p></p>
<p></p>
<p><strong><span style="font-size: medium;">二、solrconfig.xml</span></strong></p>
<p></p>
<p>1、索引配置</p>
<p></p>
<p>mainIndex 标记段定义了控制Solr索引处理的一些因素.</p>
<ul>
<li>
<p>useCompoundFile:通过将很多 Lucene 内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目,代价是降低了性能。除非是应用程序用完了文件句柄,否则 <code>false</code> 的默认值应该就已经足够。 </p>
</li>
<li>useCompoundFile:通过将很多Lucene内部文件整合到一个文件,来减少使用中的文件的数量。这可有助于减少Solr使用的文件句柄的数目,代价是降低了性能。除非是应用程序用完了文件句柄,否则false的默认值应该就已经足够了。</li>
<li>mergeFacor:决定Lucene段被合并的频率。较小的值(最小为2)使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。(典型的 时间与空间 的平衡配置)</li>
<li>maxBufferedDocs:在合并内存中文档和创建新段之前,定义所需索引的最小文档数。段 是用来存储索引信息的Lucene文件。较大的值可使索引时间变快但会牺牲较多内存。</li>
<li>maxMergeDocs:控制可由Solr合并的 Document 的最大数。较小的值(<10,000)最适合于具有大量更新的应用程序。</li>
<li>maxFieldLength:对于给定的Document,控制可添加到Field的最大条目数,进而阶段该文档。如果文档可能会很大,就需要增加这个数值。然后,若将这个值设置得过高会导致内存不足错误。</li>
<li>unlockOnStartup:告知Solr忽略在多线程环境中用来保护索引的锁定机制。在某些情况下,索引可能会由于不正确的关机或其他错误而一直处于锁定,这就妨碍了添加和更新。将其设置为true可以禁用启动索引,进而允许进行添加和更新。(锁机制)</li>
</ul>
<p></p>
<p>2、查询处理配置</p>
<p></p>
<p>query标记段中以下一些与缓存无关的特性:</p>
<ul>
<li>maxBooleanClauses:定义可组合在一起形成以个查询的字句数量的上限。正常情况1024已经足够。如果应用程序大量使用了通配符或范围查询,增加这个限制将能避免当值超出时,抛出TooMangClausesException。</li>
<li>enableLazyFieldLoading:如果应用程序只会检索Document上少数几个Field,那么可以将这个属性设置为true。懒散加载的一个常见场景大都发生在应用程序返回一些列搜索结果的时候,用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的现实常常只需要现实很短的一段信息。若是检索大型的Document,除非必需,否则就应该避免加载整个文档。</li>
</ul>
<p></p>
<p>query部分负责定义与在Solr中发生的时间相关的几个选项:</p>
<p></p>
<p></p>
<p>概念:Solr(实际上是Lucene)使用称为Searcher的Java类来处理Query实例。Searcher将索引内容相关的数据加载到内存中。根据索引、CPU已经可用内存的大小,这个过程可能需要较长的一段时间。要改进这一设计和显著提高性能,Solr引入了一张“温暖”策略,即把这些新的Searcher联机以便为现场用户提供查询服务之前,先对它们进行“热身”。</p>
<ul>
<li>newSearcher和firstSearcher事件,可以使用这些事件来制定实例化新Searcher或第一个Searcher时,应该执行哪些查询。如果应用程序期望请求某些特定的查询,那么在创建新Searcher或第一个Searcher时就应该反注释这些部分并执行适当的查询。</li>
</ul>
<p></p>
<p>query中的智能缓存:</p>
<p></p>
<ul>
<li>filterCache:通过存储一个匹配给定查询的文档 id 的无序集,过滤器让 Solr 能够有效提高查询的性能。缓存这些过滤器意味着对Solr的重复调用可以导致结果集的快速查找。更常见的场景是缓存一个过滤器,然后再发起后续的精炼查询,这种查询能使用过滤器来限制要搜索的文档数。</li>
<li>queryResultCache:为查询、排序条件和所请求文档的数量缓存文档 id 的有序集合。</li>
<li>documentCache:缓存Lucene Document,使用内部Lucene文档id(以便不与Solr唯一id相混淆)。由于Lucene的内部Document id 可以因索引操作而更改,这种缓存不能自热。</li>
<li>Named caches:命名缓存是用户定义的缓存,可被 Solr定制插件 所使用。</li>
</ul>
<p>其中filterCache、queryResultCache、Named caches(如果实现了org.apache.solr.search.CacheRegenerator)可以自热。</p>
<p>每个缓存声明都接受最多四个属性:</p>
<ul>
<li>class:是缓存实现的Java名</li>
<li>size:是最大的条目数</li>
<li>initialSize:是缓存的初始大小</li>
<li>autoWarmCount:是取自旧缓存以预热新缓存的条目数。如果条目很多,就意味着缓存的hit会更多,只不过需要花更长的预热时间。</li>
</ul>
<p>对于所有缓存模式而言,在设置缓存参数时,都有必要在内存、cpu和磁盘访问之间进行均衡。统计信息管理页(管理员界面的Statistics)对于分析缓存的 hit-to-miss 比例以及微调缓存大小的统计数据都非常有用。而且,并非所有应用程序都会从缓存受益。实际上,一些应用程序反而会由于需要将某个永远也用不到的条目存储在缓存中这一额外步骤而受到影响。</p>
相关推荐
### Solrconfig.xml 和 Schema.xml 说明 #### Solrconfig.xml 概述 Solrconfig.xml 是 Apache Solr 的核心配置文件之一,主要用于定义 Solr 实例如何处理文档的索引与查询请求。该文件中包含了多种配置项,用于...
2.把IKAnalyzer.cfg.xml 和 stopword.dic添加到classes目录 3.把IKAnalyzer2012FF_u1.jar添加到/opt/cloudera/parcels/CDH/lib/solr/webapps/solr/WEB-INF/lib目录 4.修改 /opt/cdhsolr/fuser/conf/schema.xml...
在Solr中,通过使用IK Analyzer,可以实现对中文文本的高效分析和索引,从而提供更精准的搜索服务。 总的来说,这个压缩包提供的组件和教程让开发者能够有效地在Solr4.10中实施中文分词,提升中文文本搜索的性能和...
它具有高效、可靠和强大的特点,广泛应用于企业级搜索、互联网搜索和数据分析。Solr 提供了包括全文搜索、高亮显示、自动拼写更正、结果排序等功能,旨在为用户提供丰富、相关且准确的搜索结果。 《Apache Solr 4 ...
- **配置**:Solr的配置文件在`conf`目录下,包括schema.xml(定义字段和字段类型)、solrconfig.xml(配置索引和查询行为)等。 - **集合与分片**:在分布式环境中,Solr将数据分为多个集合,每个集合可以进一步...
windows环境php5.5的php_solr.dll
2. **添加Scheduler配置**:在Solr的配置文件`solrconfig.xml`中,你需要定义DataImportScheduler的配置,包括定时任务的频率、执行时间等。这通常涉及到`<requestHandler>`和`<lst name="dataimport">`标签的设置。...
在solr使用 IKAnalyzer 分词时,自带的字典比较熟,不适合精确拆分。可以使用sougou分词,还是比较好用的。
2. **编辑 php.ini**:在 php.ini 文件中启用扩展,通过添加 `extension=php_solr.dll` 行。 3. **重启服务**:重启 PHP 服务器以加载新的配置。 4. **测试连接**:编写 PHP 脚本测试与 Solr 服务器的连接是否成功。...
Solr的配置主要在`server/solr/solr.xml`和每个核心的`conf`目录下进行。`solr.xml`定义了Solr的整体配置,如端口设置、数据存储位置等。每个核心有自己的配置,如字段类型、字段配置、搜索处理链等,这些都在`conf`...
这可以通过修改solrconfig.xml和schema.xml文件来完成。同时,根据需求,开发者还可以自定义词典,以处理专业术语或者提高特定领域的分词准确性。 总的来说,IKAnalyzer2012FF_u1.jar是一个成熟的中文分词解决方案...
IKAnalyzer2012FF_u1.jar 是一款广泛应用于Java环境中的中文分词库,尤其在搜索引擎和文本分析领域有着重要的应用。这个jar包包含了IK Analyzer的最新版本,即2012FF_u1更新版,它是一款开源的、高性能的中文分词...
Solr,作为一款开源的全文搜索引擎,其核心配置文件包括`schema.xml`和`solrconfig.xml`,它们是Solr工作方式的基础。在深入理解这两个文件之前,我们需要先了解Solr的基本架构。 **1. Solr架构简介** Solr采用...
IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,
这里定义了一个名为`text_general`的字段类型,其类为`solr.TextField`,并设置了不同的索引和查询分析器。 #### 四、UniqueKey元素详解 `uniqueKey`元素用于定义索引中的唯一键字段,该字段必须是唯一的,通常...
6. **server/solr 目录**:存储了配置集合的目录,每个集合都有自己的配置文件,如`schema.xml`用于定义字段和字段类型,`solrconfig.xml`定义了索引和查询的行为。 7. **contrib 目录**:包含了一些社区贡献的模块...
在使用Solr-9.0.0时,你需要根据业务需求创建或修改配置文件,如`solrconfig.xml`和`schema.xml`,定义索引的字段类型和字段。然后可以通过POST请求将数据导入Solr,Solr会自动进行分词、建立倒排索引等操作,从而...
以及`solrconfig.xml`和`schema.xml`(位于Solr的`conf`目录下),用于定义Solr的索引配置和字段类型。 Solr的配置文件`solrconfig.xml`定义了索引的创建、更新和查询行为。例如,你可以配置搜索请求处理器、缓存...
Solr 是一个基于 Lucene 的开源搜索引擎,专为全文检索、高效分析和处理大量数据而设计。本压缩包“solr7部署相关文件.zip”包含了部署 Solr 7.x 版本所需的所有关键组件和配置文件,使得用户可以快速搭建并运行 ...