damoqingquan 写道
l dataDir参数
用于替换默认的索引数据目录(./data)。如果重复指定,将使用重复的值。如果不是绝对路径,将使用servlet容器当前工作目录下的相对路径。
<dataDir>/var/data/solr</dataDir>
l mainIndex参数部分
mainIndex>
<!-- lucene options specific to the main on-disk lucene index -->
<useCompoundFile>false</useCompoundFile>
<mergeFactor>10</mergeFactor>
<maxBufferedDocs>1000</maxBufferedDocs>
<maxMergeDocs>2147483647</maxMergeDocs>
<maxFieldLength>10000</maxFieldLength>
</mainIndex>
【mergeFactor】指定同样大小的segment达到多少时会被合并。如果你设置改值为10,那么每当1000(maxBufferedDocs)个doc被添加到索引时(它们可能在内存中),一个新的sgement将在硬盘上创建,当第10个同样大小的segment被创建后,这10个segement 将被合并成一个包含10000(10*1000)个doc的segment。同样当第10个包含10000个doc的segment被创建的时候,他们将合并成更大的segment。当然这种合并并不是无休止的。这是因为下面的参数对其进行了限制。
【maxMergeDocs】每个segment所能容纳的doc数目上限。
【maxFieldLength】指定每个field的最大长度。
l Update Handler 参数部分
这部分通常是关于内部如如何处理update低级配置信息(不要与处理客户端发送的update的Request Handler高级配置信息相混淆)。
<updateHandler class="solr.DirectUpdateHandler2">
<!-- Limit the number of deletions Solr will buffer during doc updating.
Setting this lower can help bound memory use during indexing.
-->
<maxPendingDeletes>100000</maxPendingDeletes>
<!-- autocommit pending docs if certain criteria are met. Future versions may expand the available
criteria -->
<autoCommit>
<maxDocs>10000</maxDocs> <!-- maximum uncommited docs before autocommit triggered -->
<maxTime>86000</maxTime> <!-- maximum time (in MS) after adding a doc before an autocommit is triggered -->
</autoCommit>
l 与更新相关的事件监听器("Update" Related Event Listeners)
为与特殊更新相关的事件("postCommit" 和 "postOptimize".)指定监听器。监听器能触发任意的特殊代码,它们的典型应用是快照功能。
...
<!-- The RunExecutableListener executes an external command.
exe - the name of the executable to run
dir - dir to use as the current working directory. default="."
wait - the calling thread waits until the executable returns.
default="true"
args - the arguments to pass to the program. default=nothing
env - environment variables to set. default=nothing
-->
<!-- A postCommit event is fired after every commit
-->
<listener event="postCommit" class="solr.RunExecutableListener">
<str name="exe">snapshooter</str>
<str name="dir">solr/bin</str>
<bool name="wait">true</bool>
<!--
<arr name="args"> <str>arg1</str> <str>arg2</str> </arr>
<arr name="env"> <str>MYVAR=val1</str> </arr>
-->
</listener>
</updateHandler>
l 查询参数部分(The Query Section)
控制与查询相关的一切。
<query>
<!-- Maximum number of clauses in a boolean query... can affect range
or wildcard queries that expand to big boolean queries.
An exception is thrown if exceeded.
-->
<maxBooleanClauses>1024</maxBooleanClauses>
l 缓存参数部分(Caching Section)
当你的索引量增加或变化的时候,你需要在这里进行配置。关于缓存配置的更多细节请点这里。
<!-- Cache used by SolrIndexSearcher for filters (DocSets),
unordered sets of *all* documents that match a query.
When a new searcher is opened, its caches may be prepopulated
or "autowarmed" using data from caches in the old searcher.
autowarmCount is the number of items to prepopulate. For LRUCache,
the autowarmed items will be the most recently accessed items.
Parameters:
class - the SolrCache implementation (currently only LRUCache)
size - the maximum number of entries in the cache
initialSize - the initial capacity (number of entries) of
the cache. (seel java.util.HashMap)
autowarmCount - the number of entries to prepopulate from
and old cache.
-->
<filterCache
class="solr.LRUCache"
size="512"
initialSize="512"
autowarmCount="256"/>
<!-- queryResultCache caches results of searches - ordered lists of
document ids (DocList) based on a query, a sort, and the range
of documents requested. -->
<queryResultCache
class="solr.LRUCache"
size="512"
initialSize="512"
autowarmCount="256"/>
<!-- documentCache caches Lucene Document objects (the stored fields for each document).
Since Lucene internal document ids are transient, this cache will not be autowarmed. -->
<documentCache
class="solr.LRUCache"
size="512"
initialSize="512"
autowarmCount="0"/>
<!-- Example of a generic cache. These caches may be accessed by name
through SolrIndexSearcher.getCache().cacheLookup(), and cacheInsert().
The purpose is to enable easy caching of user/application level data.
The regenerator argument should be specified as an implementation
of solr.search.CacheRegenerator if autowarming is desired. -->
<!--
<cache name="myUserCache"
class="solr.LRUCache"
size="4096"
initialSize="1024"
autowarmCount="1024"
regenerator="org.mycompany.mypackage.MyRegenerator"
/>
-->
<!-- An optimization that attempts to use a filter to satisfy a search.
If the requested sort does not include a score, then the filterCache
will be checked for a filter matching the query. If found, the filter
will be used as the source of document ids, and then the sort will be
applied to that.
-->
<useFilterForSortedQuery>true</useFilterForSortedQuery>
<!-- An optimization for use with the queryResultCache. When a search
is requested, a superset of the requested number of document ids
are collected. For example, of a search for a particular query
requests matching documents 10 through 19, and queryWindowSize is 50,
then documents 0 through 50 will be collected and cached. Any further
requests in that range can be satisfied via the cache.
-->
<queryResultWindowSize>50</queryResultWindowSize>
<!-- This entry enables an int hash representation for filters (DocSets)
when the number of items in the set is less than maxSize. For smaller
sets, this representation is more memory efficient, more efficient to
iterate over, and faster to take intersections.
-->
<HashDocSet maxSize="3000" loadFactor="0.75"/>
<!-- boolToFilterOptimizer converts boolean clauses with zero boost
cached filters if the number of docs selected by the clause exceeds the
threshold (represented as a fraction of the total index)
-->
<boolTofilterOptimizer enabled="true" cacheSize="32" threshold=".05"/>
<!-- Lazy field loading will attempt to read only parts of documents on disk that are
requested. Enabling should be faster if you aren't retrieving all stored fields.
-->
<enableLazyFieldLoading>false</enableLazyFieldLoading>
l 查询相关的事件监听器参数配置("Query" Related Event Listeners)
在这里定义与特殊查询相关的事件监听器,使用该监听器实现需要的代码,例如启动常用的查询去预热缓存。
【newSearcher】 在有注册搜索器存在的时启动一个新的搜索器,下例中的监听器就是这类,它获得查询列表并将它们发送到新的搜索器以达到预热的目的。
<!-- a newSearcher event is fired whenever a new searcher is being
prepared and there is a current searcher handling requests
(aka registered).
-->
<!-- QuerySenderListener takes an array of NamedList and
executes a local query request for each NamedList in sequence.
-->
<!--
<listener event="newSearcher" class="solr.QuerySenderListener">
<arr name="queries">
<lst> <str name="q">solr</str>
<str name="start">0</str>
<str name="rows">10</str>
</lst>
<lst> <str name="q">rocks</str>
<str name="start">0</str>
<str name="rows">10</str>
</lst>
</arr>
-->
【firstSearcher】
当不存在已注册的搜索器时启动新的firstSearcher。下例正式如此,该监听器获得查询列表将其发送到正启动的新的搜索器,将其预热。(注意,只有当存在已注册搜索器的时候才可以使用自动预热auto-warming)
<!-- a firstSearcher event is fired whenever a new searcher is being
prepared but there is no current registered searcher to handle
requests or to gain prewarming data from.
-->
<!--
<listener event="firstSearcher" class="solr.QuerySenderListener">
<arr name="queries">
<lst> <str name="q">fast_warm</str>
<str name="start">0</str>
<str name="rows">10</str>
</lst>
</arr>
</listener>
分享到:
相关推荐
在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...
本篇文章将深入探讨在Solr5中配置中文分词的过程。 首先,我们要了解的是分词器(Analyzer)。在Solr中,Analyzer是处理文本输入的组件,它负责将输入的文本转换为可搜索的术语。对于中文,我们需要一个能理解并...
首先,我们需要理解Solr的数据导入处理器(DataImportHandler,DIH)。DIH是Solr的一个模块,它可以定期从外部数据源(如关系型数据库)中抓取数据并将其索引到Solr。这个过程通常分为四个主要步骤: Full Import、...
4. **设置启动参数**:在`catalina.bat`文件中添加配置参数`JAVA_OPTS=-Dsolr.solr.home=<Solr目录路径>`,其中`<Solr目录路径>`是Solr文件夹的实际路径。 5. **启动Tomcat**:完成以上步骤后,启动Tomcat即完成了...
1. **Solr样例文件**:在下载的Solr包的`example`目录中,可以找到许多样例配置文件,这些文件可以帮助开发者更好地理解Solr的各种配置选项。 2. **通过Solr控制台创建核**:除了手动创建核外,还可以通过Solr的管理...
Solr 是一个基于 Lucene 的全文搜索引擎服务器,它提供了高级的搜索功能,广泛应用于网站的全文检索、数据索引和搜索。...通过理解 Solr 的配置和 Tomcat 的部署机制,你可以更好地定制和扩展你的搜索解决方案。
求中多次命中的缓存。由于它避免了锁竞争,FastLRUCache 可能...通过理解各种缓存类型、替换策略及其工作原理,我们可以更好地优化 Solr 配置,以满足特定应用场景的需求,提高搜索服务的响应速度和系统资源利用率。
本压缩包“Solr安装与配置solr.rar”包含了Solr的安装和配置步骤,对于理解和使用Solr进行全文检索、索引和查询操作具有重要的参考价值。 首先,我们需要了解Solr的基本架构。Solr的核心组件包括索引库、请求处理器...
10. **性能优化**:掌握如何调整Solr的配置参数,如缓存大小、索引策略等,以适应不同的工作负载。 总之,Solr4.9开发涉及多个方面,从基本的索引构建到复杂的分布式搜索和数据处理,都需要开发者有扎实的技术基础...
首先,我们要理解Solr的数据导入过程。Solr使用DataImportHandler(DIH)来从关系型数据库、XML文件或其他数据源导入数据。DIH提供了一个全面的数据加载框架,支持全量导入和增量导入。 1. **全量导入**:全量导入...
6. **配置Solr**:在Ambari的Web界面中,配置Solr的各个参数,例如数据目录、端口、索引设置等。 7. **安装Solr**:在Ambari的管理界面中,选择离线安装模式,然后添加并启动Solr服务。Ambari会根据你的配置和定义...
5. 分词器配置:根据业务需求,将本压缩包中的分词器JAR包添加到Solr的lib目录,然后在Solr配置文件中指定使用的分词器。 6. 启动Solr服务:启动Solr后,你可以通过浏览器访问`http://localhost:8983/solr/`(默认...
3. **配置与部署**:Solr的配置文件位于`conf`目录下,包括schema.xml(定义字段和字段类型)、solrconfig.xml(配置索引和查询参数)等。用户可以根据需求自定义这些配置。部署Solr通常涉及解压下载的`solr-4.10.3....
10. **性能优化**:Solr允许配置各种参数以优化查询性能,如缓存策略、内存分配等。本示例可能包含了这些优化的实例。 总的来说,"solr5.5.4项目示例"是一个综合性的教程,涵盖了Solr的基本操作,对于初学者来说是...
本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是分词器。在文本检索和自然语言处理领域,分词是将连续的文本分解成有意义的词语单元(如单词或短语)的过程。对于中文,由于没有明显...
Solr的源码结构清晰,包括目录结构、Solr Home配置等,便于理解和开发扩展。 在部署和配置上,Solr可以与Tomcat等应用服务器集成。安装过程中需注意版本选择,以及验证安装是否成功。对于中文分词,Solr支持mmseg4j...
文档中详细介绍了 Solr 的分面功能,包括如何配置分面参数、如何解析分面结果等。 #### 高亮显示 文档中解释了如何在 Solr 中启用高亮显示功能,使搜索结果中的关键词突出显示。 #### 拼写检查 文档中介绍了 ...
- **1.3.2 搜索**:用户通过发送查询请求到Solr服务器,服务器会根据请求中的关键字和其他参数,在索引中查找相关文档,并返回最相关的文档列表。 **1.4 源码结构** - **1.4.1 目录结构说明**:Solr的核心源码主要...
### Solr基础知识与实践操作详解 #### 一、Solr简介及安装配置 **Solr** 是一个基于 **Lucene** 的开源全文检索服务器。...随着进一步的学习,您将能深入理解Solr的强大功能及其在企业级搜索系统中的应用。
【Solr简要配置】 Solr,全称为Apache Solr,是一个基于Apache Lucene的开源搜索服务器。它提供了高效、可扩展的企业级搜索...通过不断的实践和学习,可以深入理解Solr的特性和优势,更好地满足各种搜索场景的需求。