`
wbj0110
  • 浏览: 1587851 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Solr的自动完成实现方式(facet方式)

    博客分类:
  • Solr
阅读更多

大部分人已经见过自动完成(autocomplete)的功能了(见下图)solr提供了构建这个功能的机制。今天,我将给你展示如何使用facet的方式来添加自动完成机制。 

 
索引 
设想你想在你的在线商店中,给用户一些提示,比如商品的名称。假设我们的索引构建如下: 

<field name="id" type="string" indexed="true" stored="true" multiValued="false" required="true"/>  
<field name="name" type="text" indexed="true" stored="true" multiValued="false" />
<field name="description" type="text" indexed="true" stored="true" multiValued="false" />

 

text类型的定义为: 

复制代码
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">  
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
复制代码

 

配置 
开始前,首先考虑你要实现的功能:是要实现一个名字的提示,还是全名的提示。这都依赖于我们的选择,我们必须为需要引导的地方设置适当的域。 

单词提示 
在单词的情况下,我们使用的域也即一个token。在这种情况下,域名为name就足够了。但是,这属于一个词干,analysis的操作都在词干上,因此,我们最好换一个其他的类型。 

全名提示 
我们使用一个不同的域配置来定义全名提示--最好一个未被定义的域。但是我们不能使用基于类似string这种类型的域,基于这个原因,我们定义为一下的域: 

 

<field name="name_auto" type="text_auto" indexed="true" stored="true" multiValued="false" />


text_auto
类型的定义为: 

<fieldType name="text_auto" class="solr.TextField">  
<analyzer>
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

 

为了不影响原有数据的格式,将原数据进行拷贝: 

<copyField source="name" dest="name_auto" />

 

如何使用 
为了使用这个数据,我们准备了一个简单的查询语句: 

 

q=*:*&facet=true&facet.field=FIELD&facet.mincount=1&facet.prefix=USER_QUERY


需要替换的地方: 
   FIELD
:我们打算提供建议的域,在本例中域名为name name_auto 
   USER_QUERY
:用户输入的字符 

这里可以设置rows=0,这样可以只返回facet的结果,而没有查询结果。当然这不是必须的。 

查询的一个例子可以这样写: 

fl=id,name&rows=0&q=*:*&facet=true&facet.field=name_auto&facet.mincount=1&facet.prefix=har

 

查询结果会返回这样的结果: 

复制代码
<response>  
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
</lst>
<result name="response" numFound="4" start="0"/>
<lst name="facet_counts">
<lst name="facet_queries"/>
<lst name="facet_fields">
<lst name="name_auto">
<int name="hard disk">1</int>
<int name="hard disk samsung">1</int>
<int name="hard disk seagate">1</int>
<int name="hard disk toshiba">1</int>
</lst>
</lst>
<lst name="facet_dates"/></lst>
</response>
复制代码

 

扩展功能 
这里说一下他的一些常用的功能。 

第一个是显示用户的一些额外的信息,比如当你选择某个提示词时,显示的结果的数量。这是一个很有意思的特性。

另一个是使用facet.sort参数进行排序。这依赖于你的需求,我们可以按文档的数量排序(默认方式,设参数为true即可),或者按字母序排序(设为false)。 

我们也可以通过设置facet.mincount来显示比指定的数量更多的提示词。 

另外一个很好的特性是提示词不仅可以通过用户的类型获取,还可以通过其他的属性获取,这类似于类别。举个例子,我们想给用户展示家庭用品相关的商品,我们假设现在用户对DVD类型的商品并不感兴趣,这样我们添加一个参数:fq=department:homeApplications(假设有这个department)。通过这样的一个查询,你就不需要在所有的索引中匹配了,而是在我们选择的department里选择。 

结尾 
跟其他方法一样,它有优点,也有缺点。优点就是易于使用、没有额外的组件依赖,并且能将结果约束在一个很小的范围内来更好的匹配用户的需求;另外一个很大的优点是它对每个提示词都附带了结果的统计。缺点就是需要添加额外的类型和字段;另外由于其facet的机制,对机器性能和load都非常消耗。 


PS
:我自己测试了一下,由于这个功能是实时请求的(每个字母的输入都是一次请求),如果量很大的时候,统计数量会占用很大的内存,内存过小(我的2G)很容易OOM。所以,这个功能慎用。 

分享到:
评论

相关推荐

    Solr 搜索引擎 asp.net实现 示例详细操作步骤

    我们网站搜索如果数据量大的话,我们使用数据库直接查搜索会很慢,而且由于不能自动分词,结果往往不是很理想,现在我提供了一个例子,内含详细操作步骤和简单增删改查 Solr是一个独立的企业级搜索应用服务器,它...

    solr基础知识介绍

    Lucene的核心功能包括为文件中的每个单词建立索引,这种索引方式极大地提高了搜索效率,因为它不同于传统逐字比较的搜索方式。Lucene提供了多种API用于解析、过滤、分析文本,构建和使用索引。它的另一个显著特点是...

    Solr学习笔记。。

    2. 查询价格在0到400之间的商品,返回id、name和price字段,并按类别进行 faceting:`http://localhost:8983/solr/select?q=price:[0%20TO%20400]&fl=id,name,price&facet=true&facet.field=cat` 通过以上步骤,你...

    solr4.7中文企业开发参考文档

    2. **检索建议**:在Solr 4.7中,可以配置自动补全和建议功能,这在用户输入时提供即时的搜索建议,提高用户体验。这通常通过配置SpellChecker或Suggester组件来实现,它们可以基于用户的输入历史或者字典文件生成...

    solr_api

    - **Faceting**:Solr支持字段统计(Faceting),可以通过`facet.field`和`facet.query`参数来实现,帮助用户分析数据分布。 - **统计函数**:通过`stats`参数可以计算字段的统计信息,如平均值、总和、最大值、...

    Apache Solr(solr-7.7.3.zip)

    Solr 提供了强大的全文搜索、近实时搜索、 faceted search(分面搜索)、命中高亮、拼写检查、自动补全等多种功能,广泛应用于网站内容搜索、电商产品搜索、企业内部文档检索等领域。 **1. Solr 的核心概念** - **...

    大型SpringMVC,Mybatis,Redis,Solr,Nginx,SSM分布式电商项目视频教程

    ### 大型SpringMVC、Mybatis、Redis、Solr、Nginx、SSM分布式电商项目视频教程知识点概述 #### 一、SpringMVC框架介绍与应用 **SpringMVC**是Spring框架的一个模块,它实现了MVC设计模式,主要用于构建Web应用程序...

    solrium:Solr的通用R接口

    6. **分面查询**:利用`solr_facet_field()`或`solr_facet_query()`设置分面,`execute()`后获取分面结果。 7. **高亮显示**:在查询设置中开启高亮,`execute()`后结果中将包含高亮信息。 8. **关闭连接**:完成...

    java1.6源码-solrj.client:使用solr.solrjJava库将Java索引到Solr6.2.1的源代码

    如果不需要立即可见,可以使用`softCommit()`或不调用`commit()`,等待Solr自动提交。 查询操作同样简单。创建一个`SolrQuery`对象,设置查询参数,然后使用`query()`方法执行查询: ```java SolrQuery query = ...

    xmlfacets:基于 DjangoHaystack 的 xml 分面浏览应用程序

    在 Django-haystack 中可以使用多种搜索索引系统,例如 Solr 或 ElasticSearch。 安装 xmlfacets 需要 Python 2.7 和 PostgreSQL。 要设置本地开发环境,请安装 并确保您具有以下依赖项 libxml2 libxslt 可选:...

    搜索引擎技术教程 网络搜索引擎原理-第7章 Xapian简介 共39页.pptx

    4. **统计功能**:虽然Xapian本身不提供统计功能,但在特定应用场景下可以通过其他方式实现统计数据的需求。 5. **多值字段查询**:特别适合处理具有多值字段的数据,例如标签(tag)等。 6. **可扩展性**:Xapian ...

Global site tag (gtag.js) - Google Analytics