- 浏览: 538189 次
- 性别:
- 来自: 杭州
BeanFactory和FactoryBean -
X86、X64和X86_64区别 -
BeanFactory和FactoryBean -
Executor框架和线程池 -
请教一个问题。现在互联网业务的数据库通常用分片方式来连接一组数 ...
The schema.xml file contains all of the details about which fields your documents can contain, and how those fields should be dealt with when adding documents to the index, or when querying those fields.
Data Types
The <types> section allows you to define a list of <fieldtype> declarations you wish to use in your schema, along with the underlying Solr class that should be used for that type, as well as the default options you want for fields that use that type.
- name:就是这个FieldType的名称。
- class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。
<schema name="example" version="1.2"> <types> <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/> <fieldtype name="binary" class="solr.BinaryField"/> <fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> ... </types> ... </schema>
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType> <fieldType name="text" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <!--这个分词包是空格分词,在向索引库添加text类型的索引时,Solr会首先用空格进行分词 然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果,才会加入到索引库中以备查询。 注意:Solr的analysis包并没有带支持中文的包,需要自己添加中文分词器,google下。 --> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <!-- in this example, we will only use synonyms at query time <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> --> <!-- Case insensitive stop word removal. add enablePositionIncrements=true in both the index and query analyzers to leave a 'gap' for more accurate phrase queries. --> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> </analyzer> </fieldType>
The <fields> section is where you list the individual <field> declarations you wish to use in your documents. Each <field> has a name that you will use to reference it when adding documents or executing searches, and an associated type which identifies the name of the fieldtype you wish to use for this field. There are various field options that apply to a field. These can be set in the field type declarations, and can also be overridden at an individual field's declaration.
- name:字段名
- type:之前定义过的各种FieldType
- indexed:是否被索引
- stored:是否被存储(如果不需要存储相应字段值,尽量设为false)
- multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)
<fields> <field name="id" type="integer" indexed="true" stored="true" required="true" /> <field name="name" type="text" indexed="true" stored="true" /> <field name="summary" type="text" indexed="true" stored="true" /> <field name="author" type="string" indexed="true" stored="true" /> <field name="date" type="date" indexed="false" stored="true" /> <field name="content" type="text" indexed="true" stored="false" /> <field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" /> <!--拷贝字段--> <field name="all" type="text" indexed="true" stored="false" multiValued="true"/> </fields>
Copy Fields
建议建立一个拷贝字段,将所有的 全文本 字段复制到一个字段中,以便进行统一的检索:
<copyField source="name" dest="all"/> <copyField source="summary" dest="all"/>
<schema name="eshequn.post.db_post.0" version="1.1" xmlns:xi="http://www.w3.org/2001/XInclude"> <fields> <!-- for title --> <field name="t" type="text" indexed="true" stored="false" /> <!-- for abstract --> <field name="a" type="text" indexed="true" stored="false" /> <!-- for title and abstract --> <field name="ta" type="text" indexed="true" stored="false" multiValued="true"/> </fields> <copyField source="t" dest="ta" /> <copyField source="a" dest="ta" /> </schema>Copy Fields
Dynamic fields
One of the powerful features of Lucene is that you don't have to pre-define every field when you first create your index. Even though Solr provides strong datatyping for fields, it still preserves that flexibility using "Dynamic Fields". Using <dynamicField> declarations, you can create field rules that Solr will use to understand what datatype should be used whenever it is given a field name that is not explicitly defined, but matches a prefix or suffix used in a dynamicField.
For example the following dynamic field declaration tells Solr that whenever it sees a field name ending in "_i" which is not an explicitly defined field, then it should dynamically create an integer field with that name...
<dynamicField name="*_i" type="integer" indexed="true" stored="true"/>
The Unique Key Field
The <uniqueKey> declaration can be used to inform Solr that there is a field in your index which should be unique for all documents. If a document is added that contains the same value for this field as an existing document, the old document will be deleted. It is not mandatory for a schema to have a uniqueKey field.
- 将所有只用于搜索的,而不需要作为结果的field(特别是一些比较大的field)的stored设置为false
- 将不需要被用于搜索的,而只是作为结果返回的field的indexed设置为false
- 删除所有不必要的copyField声明
- 为了索引字段的最小化和搜索的效率,将所有的 text fields的index都设置成field,然后使用copyField将他们都复制到一个总的 text field上,然后对他进行搜索。
- 为了最大化搜索效率,使用java编写的客户端与solr交互(使用流通信)
- 在服务器端运行JVM(省去网络通信),使用尽可能高的Log输出等级,减少日志量。
2、< schema name =" example " version =" 1.2 " >
- name:标识这个schema的名字
- version:现在版本是1.2
< fieldType name =" string " class =" solr.StrField " sortMissingLast =" true " omitNorms =" true " />
- name:标识名称,定义fields节点时field的type属性指定该值
- class和其他属性决定了这个fieldType的实际行为。(class以solr开始的,都是在org.appache.solr.analysis包下)
- sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上(包括:string,boolean,sint,slong,sfloat,sdouble,pdate)。
- sortMissingLast="true",没有该field的数据排在有该field的数据之后,而不管请求时的排序规则。
- sortMissingFirst="true",跟上面倒过来呗。
- 2个值默认是设置成false
< fieldType name =" text " class =" solr.TextField " positionIncrementGap =" 100 " >
solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括 一个分词器(tokenizer)和多个过滤器(filter)
< tokenizer class =" solr.WhitespaceTokenizerFactory " />
< filter class =" solr.WordDelimiterFilterFactory " generateWordParts =" 1 " generateNumberParts =" 1 " catenateWords =" 1 " catenateNumbers =" 1 " catenateAll =" 0 " splitOnCaseChange =" 1 " />
在分词和匹配时,考虑 "-"连字符,字母数字的界限,非字母数字字符,这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。
< filter class =" solr.SynonymFilterFactory " synonyms =" synonyms.txt " ignoreCase =" true " expand =" true " />
< filter class =" solr.StopFilterFactory " ignoreCase =" true " words =" stopwords.txt " enablePositionIncrements =" true " />
stopword:即在建立索引过程中(建立索引和搜索)被忽略的词,比如is this等常用词。在conf/stopwords.txt维护。
< field name =" id " type =" string " indexed =" true " stored =" true " required =" true " />
- name:标识名称。
- type:先前定义的类型。
- indexed:是否被用来建立索引(关系到搜索和排序)
- stored:是否储存
- compressed:[false],是否使用gzip压缩(只有TextField和StrField可以压缩)
- mutiValued:是否包含多个值
- omitNorms:是否忽略掉Norm,可以节省内存空间,只有全文本field和need an index-time boost的field需要norm。(具体没看懂,注释里有矛盾)
- termVectors:[false],当设置true,会存储 term vector。当使用MoreLikeThis,用来作为相似词的field应该存储起来。
- termPositions:存储 term vector中的地址信息,会消耗存储开销。
- termOffsets:存储 term vector 的偏移量,会消耗存储开销。
- default:如果没有属性需要修改,就可以用这个标识下。
< field name =" text " type =" text " indexed =" true " stored =" false " multiValued =" true " />
包罗万象(有点夸张)的field,包含所有可搜索的text fields,通过copyField实现。
< copyField source =" cat " dest =" text " />
在添加索引时,将所有被拷贝field(如cat)中的数据拷贝到text field中
- 将多个field的数据放在一起同时搜索,提供速度
- 将一个field的数据拷贝到另一个,可以用2种不同的方式来建立索引。
< dynamicField name =" *_i " type =" int " indexed =" true " stored =" true " />
- "*"只能出现在模式的最前和最后
- 较长的模式会被先去做匹配
- 如果2个模式同时匹配上,最先定义的优先
< dynamicField name =" * " type =" ignored " multiValued=" true " />
< uniqueKey > id </ uniqueKey >
文档的唯一标识, 必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。(跟wiki里说的It is not mandatory for a schema to have a uniqueKey field. 相反)
< defaultSearchField > text </ defaultSearchField >
< solrQueryParser defaultOperator =" OR " />
Solr 搜索不为空值
2012-07-27 11:37 80421、被搜索的列必须被索引,否则搜索不到数据,设置schema. ... -
Solr Searching(一)
2012-05-24 08:27 2476In this chapter, you are going ... -
Solr 创建索引 From DataBase
2012-05-17 20:46 6136The Data Import Handler Framew ... -
Solr 创建索引 XML格式
2012-05-11 21:09 1770Solr receives commands and poss ... -
在Tomcat下部署Solr Example
2012-04-28 12:07 98921、安装并配置好tomcat 2、在tomcat的目录 ... -
Solr's home directory and Solr cores
2012-04-28 10:15 1128When Solr starts, the very firs ... -
2012-04-28 09:10 19311、 下载Solr包解压后有如下目录: ... -
Apache Solr Tutorial
2012-04-28 08:50 1500转自Solr文档:http://lucene.apache.o ...
Solrconfig.xml 是 Apache Solr 的核心配置文件之一,主要用于定义 Solr 实例如何处理文档的索引与查询请求。该文件中包含了多种配置项,用于定制化 Solr 的行为。 #### Solrconfig.xml 详解 **datadir 节点** - ...
在本配置文件中,我们关注的是`manageschema`配置,这是Solr用来管理其Schema XML的一种工具,用于定义字段类型和字段,以及它们如何被索引和搜索。 在Solr中,Schema是核心组件之一,它定义了文档的结构和处理方式...
对于分词搜索的配置,首先需要解压 Solr 的 war 包到一个新的目录,比如 `E:\solr`,然后在 Solr 的 `example\multicore` 目录下创建或修改 `schema.xml` 文件,定义用于分词索引的字段。这些字段名需要与后续分词...
Solr,作为一款开源的全文搜索引擎,其核心配置文件包括`schema.xml`和`solrconfig.xml`,它们是Solr工作方式的基础。在深入理解这两个文件之前,我们需要先了解Solr的基本架构。 **1. Solr架构简介** Solr采用...
2. 配置`schema.xml`:定义字段类型和字段信息,用于解析和存储数据。 3. 通过Solr管理界面或命令行工具加载数据。 4. 进行索引优化、查询测试等操作。 Solr的强大之处在于它的灵活性和可扩展性,支持分布式搜索、...
4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` <fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"> ...
标题中的“solr配置IK分词器Jar包和配置文件”意味着我们需要将IK分词器的相关库文件(Jar包)添加到Solr的类路径中,并且对Solr的配置文件进行适当的修改,以便Solr知道如何使用这个分词器。 首先,你需要下载IK...
Solr配置入门教程主要涉及如何将数据从MySQL数据库和XML文件导入到Solr索引中。以下是详细步骤和相关知识点: 1. **下载与解压Solr**:首先需要从官方源获取Apache Solr的最新版本,并将其解压缩到一个合适的文件夹...
### Solr配置详解 #### 一、Solr简介与配置的重要性 Apache Solr是一款开源的高性能全文搜索引擎,基于Lucene库构建。它提供了一个高度可扩展的搜索平台,并且易于部署和管理。对于想要实现复杂搜索功能的企业级...
3. **修改Solr配置**: - 在`$SOLR_HOME/collection1/conf/schema.xml`文件中,在`<types></types>`之间添加以下内容: ```xml <fieldType name="text_ik" class="solr.TextField"> ``` - 同时,修改`...
3. **配置schema.xml**:Solr的schema定义了索引中的字段及其类型。可以通过编辑`conf/schema.xml`来添加新的字段或修改现有字段的属性。 4. **配置solrconfig.xml**:该文件包含了Solr的运行时配置,如更新处理器链...
### Solr配置与SolrJ使用详解 #### 一、Solr基本安装与配置 **1. 下载Solr** - **步骤说明**: 从Apache官方镜像站点下载Solr 1.4.1版本。 - **操作详情**: 访问链接`http://apache.etoak.com/lucene/solr/`,...
2. **配置schema.xml**:接着,你需要在Solr的`conf/schema.xml`文件中声明新的字段类型(FieldType),并将该类型与你的中文字段关联。例如,你可以创建一个名为`text_chinese`的字段类型,然后配置如下: ```xml ...
- **配置Schema文件**: - 打开`solr`目录下的`schema.xml`文件,在`<Types>`部分添加自定义的`TextField`类型,并指定使用IKAnalyzer进行分词处理。 ```xml <fieldType name="text_ik" class="solr.TextField"> ...