Solr: Clustering documents with carrot

ylzhj02

浏览: 250573 次
性别:
来自: 成都

最近访客更多访客>>

daqin

bbpopeye

也许on

learnmore

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

1. Configure clutering in solrconfig.xml

<searchComponent name="clustering"
                   enable="true"
                   class="solr.clustering.ClusteringComponent" >
    <lst name="engine">
      <str name="name">lingo</str>

      <str name="carrot.algorithm">org.carrot2.clustering.lingo.LingoClusteringAlgorithm</str>
      <str name="carrot.resourcesDir">clustering/carrot2</str>
    </lst>

    <lst name="engine">
      <str name="name">stc</str>
      <str name="carrot.algorithm">org.carrot2.clustering.stc.STCClusteringAlgorithm</str>
    </lst>

    <lst name="engine">
      <str name="name">kmeans</str>
      <str name="carrot.algorithm">org.carrot2.clustering.kmeans.BisectingKMeansClusteringAlgorithm</str>
    </lst>

  </searchComponent>
 <requestHandler name="/clustering"
                  startup="lazy"
                  enable="true"
                  class="solr.SearchHandler">
    <lst name="defaults">
      <bool name="clustering">true</bool>
      <str name="clustering.engine">lingo</str>
      <bool name="clustering.results">true</bool>
      <!-- Field name with the logical "title" of a each document (optional) -->
      <str name="carrot.title">content</str>
      <!-- Field name with the logical "URL" of a each document (optional) -->
      <str name="carrot.url">id</str>
      <!-- Field name with the logical "content" of a each document (optional) -->
      <str name="carrot.snippet">content</str>
      <!-- Apply highlighter to the title/ content and use this for clustering. -->
      <bool name="carrot.produceSummary">true</bool>
      <!-- the maximum number of labels per cluster -->
      <!--<int name="carrot.numDescriptions">5</int>-->
      <!-- produce sub clusters -->
      <bool name="carrot.outputSubClusters">false</bool>

      <!-- Configure the remaining request handler parameters. -->
      <str name="defType">edismax</str>
      <str name="q.alt">*:*</str>
      <str name="rows">10</str>
      <str name="fl">*,score</str>
    </lst>
    <arr name="last-components">
      <str>clustering</str>
    </arr>
  </requestHandler>

2. alter clustering/carrot2/lingo-attributes.xml

3. add chinese tokenizer jar to classpath in solrconfig.xml

lucene-analyzers-smartcn-4.7.0.jar

References

http://wiki.apache.org/solr/ClusteringComponent

http://www.cnblogs.com/tomcattd/archive/2013/08/20/3270143.html

http://carrot2.github.io/solr-integration-strategies/carrot2-3.6.3/index.html

分享到：

Apache SOLR and Carrot2 integration stra ... | Solr:eclipse开发环境

2014-10-29 16:43
浏览 823
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

carrot2c#api: 通过集成Carrot2，Solr用户可以获取更高质量的搜索结果，因为聚类可以帮助用户快速浏览和理解大量相关但可能不完全匹配查询的文档。接下来，我们关注C# API。`carrot2-csharp-api-3.9.2`是Carrot2为C#开发者提供的...

嵌入式八股文面试题库资料知识宝典-深圳禾苗通信科技有限公司.zip: 嵌入式八股文面试题库资料知识宝典-深圳禾苗通信科技有限公司.zip

Arduino UART实验例程【正点原子EPS32S3】: Arduino UART实验例程，开发板：正点原子EPS32S3，本人主页有详细实验说明可供参考。

电力弹簧技术在主动配电网规划与运行优化调度中的应用研究: 内容概要：本文详细探讨了电力弹簧技术在主动配电网规划及运行优化调度中的应用。首先介绍了电力弹簧技术作为智能电网调控手段的优势，如自适应性强、响应速度快、节能环保等。接着阐述了主动配电网规划的目标和策略，包括优化电网结构、提高能源利用效率和降低故障风险。随后讨论了运行优化调度的原则和方法，强调了实时监测、智能调度策略以及优化调度模型的重要性。最后通过实际案例分析展示了电力弹簧技术在提升电网稳定性、可靠性和能效方面的显著效果，展望了其广阔的应用前景。适合人群：从事电力系统规划、运行管理的研究人员和技术人员，以及对智能电网感兴趣的学者和学生。使用场景及目标：适用于希望深入了解电力弹簧技术及其在主动配电网规划和运行优化调度中具体应用的专业人士。目标是掌握电力弹簧技术的工作原理、优势及其在实际项目中的实施方法。其他说明：本文不仅提供了理论分析，还有具体的案例支持，有助于读者全面理解电力弹簧技术的实际应用价值。

honor_1.145_testgray20250427.apk: honor_1.145_testgray20250427.apk

嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip: 嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

鸿蒙生态HarmonyOS：万物互联时代的操作系统革新与发展路径: 内容概要：本文详细介绍了华为推出的面向全场景的分布式操作系统HarmonyOS。HarmonyOS旨在打破设备间的壁垒，实现万物互联，通过分布式软总线和分布式任务调度等核心技术，让不同设备协同工作，如手机、平板、智能家居等设备间无缝流转任务。其应用生态涵盖教育、金融、出行等多个领域，华为通过资金、技术支持和流量扶持吸引开发者，推动生态繁荣。HarmonyOS从2019年首次发布至今，经历了多个版本迭代，性能和安全性不断提升，用户体验更加智能便捷。尽管面临应用生态丰富度不足、市场竞争压力等挑战，华为通过优化开发工具、加强市场推广等策略积极应对。未来，HarmonyOS将在分布式技术、AI融合和隐私安全等方面持续创新，并在智能家居、车联网、工业互联网等领域拓展生态。适合人群：对操作系统技术感兴趣的专业人士、开发者、科技爱好者。使用场景及目标：①了解HarmonyOS的技术架构和分布式技术的特点；②探讨HarmonyOS在智能家居、车联网等领域的应用前景；③评估HarmonyOS对现有操作系统市场的潜在影响。阅读建议：HarmonyOS作为一款面向全场景的操作系统，不仅涉及技术实现，还包括生态建设和用户体验。因此，在阅读过程中，应重点关注其技术优势、应用场景及未来发展潜力，结合自身需求思考其在实际生活和工作中的应用价值。

少儿编程scratch项目源代码文件案例素材-简单杀戮.zip: 少儿编程scratch项目源代码文件案例素材-简单杀戮.zip

基于阻抗控制和工艺优化的机器人磨抛技术研究.pdf: 基于阻抗控制和工艺优化的机器人磨抛技术研究.pdf

少儿编程scratch项目源代码文件案例素材-扛住别被压.zip: 少儿编程scratch项目源代码文件案例素材-扛住别被压.zip

【操作系统领域】HarmonyOS架构解析：分布式设计与全场景智能应用的创新实践: 内容概要：本文详细介绍了华为自主研发的面向全场景的分布式操作系统——HarmonyOS的架构设计及其在智能家居、智能穿戴、智慧出行等领域的应用。HarmonyOS采用分层架构，包括内核层、系统服务层、框架层和应用层，各层分工明确，协同工作，为用户提供稳定、高效、智能的操作系统。其核心特性包括分布式架构、微内核设计、组件化开发和一次开发多端部署，这些特性使得不同设备能够实现互联互通和资源共享，为用户带来无缝的全场景智能体验。此外，文章还探讨了HarmonyOS面临的生态建设和兼容性挑战，以及未来的发展前景和技术创新方向。适合人群：对操作系统架构感兴趣的科技爱好者、智能设备开发者及相关行业从业者。使用场景及目标：①了解HarmonyOS架构设计及其在智能家居、智能穿戴、智慧出行等领域的具体应用；②掌握HarmonyOS的核心特性，如分布式架构、微内核设计、组件化开发和一次开发多端部署；③探讨HarmonyOS面临的挑战及其未来发展方向。其他说明：HarmonyOS的出现不仅为华为在智能设备领域的发展提供了有力支撑，也为整个行业的创新发展注入了新的活力。作为科技爱好者和关注者，我们应持续关注HarmonyOS的发展，共同见证它在智能设备领域创造更多的辉煌。

嵌入式八股文面试题库资料知识宝典-linux驱动开发.zip: 嵌入式八股文面试题库资料知识宝典-linux驱动开发.zip

开关磁阻电机技术参数与建模技术深度解析：4kW电机性能详述: 内容概要：本文深入探讨了一款额定功率为4kW的开关磁阻电机，详细介绍了其性能参数如额定功率、转速、效率、输出转矩和脉动率等。同时，文章还展示了利用RMxprt、Maxwell 2D和3D模型对该电机进行仿真的方法和技术，通过外电路分析进一步研究其电气性能和动态响应特性。最后，文章提供了基于RMxprt模型的MATLAB仿真代码示例，帮助读者理解电机的工作原理及其性能特点。适合人群：从事电机设计、工业自动化领域的工程师和技术人员，尤其是对开关磁阻电机感兴趣的科研工作者。使用场景及目标：适用于希望深入了解开关磁阻电机特性和建模技术的研究人员，在新产品开发或现有产品改进时作为参考资料。其他说明：文中提供的代码示例仅用于演示目的，实际操作时需根据所用软件的具体情况进行适当修改。

嵌入式八股文面试题库资料知识宝典-新岸线.zip: 嵌入式八股文面试题库资料知识宝典-新岸线.zip

基于支持向量机和余弦相似度的故障诊断方法.pdf: 基于支持向量机和余弦相似度的故障诊断方法.pdf

Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码（毕业设计&课程设计&项目开发）: Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用 ARKit实现图片识别、平面捕捉、人脸识别 ARKit需要ios11 以及 A11处理器或更高版本设备支持 Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用 ARKit实现图片识别、平面捕捉、人脸识别 ARKit需要ios11 以及 A11处理器或更高版本设备支持~ Objective-C+ARKit实现图片识别、平面捕捉、人脸识别+源码，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用 ARKit实现图片识别、平面捕捉、人脸识别 ARKit需要ios11 以及 A11处理器或更高版本设备支持

少儿编程scratch项目源代码文件案例素材-火柴人大战中世纪战争.zip: 少儿编程scratch项目源代码文件案例素材-火柴人大战中世纪战争.zip

嵌入式八股文面试题库资料知识宝典-并行科技笔试题.zip: 嵌入式八股文面试题库资料知识宝典-并行科技笔试题.zip

嵌入式八股文面试题库资料知识宝典-进程线程.zip: 嵌入式八股文面试题库资料知识宝典-进程线程.zip

嵌入式八股文面试题库资料知识宝典-金山问题.zip: 嵌入式八股文面试题库资料知识宝典-金山问题.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr: Clustering documents with carrot

评论

发表评论

相关推荐

Storm: monitor storm with supervisor

Solr: 5.2.1 install and config

Solr: index product and price for sellers and perfoming query and sorting

Solr: Using FunctionQuery in SOLR Sort Syntax

Solr: integrate carrot2 with solr-5.1.0

Solr: Spatial Search

Solr: Synonym Query

SOLR: tika with OCR engine

Solr: Install tesseract-ocr

用 Apache Tika 理解信息内容

Solr: Using solrJ to operate solr

Flume: morphline sink with solr 5.1.0

Solr : realtime recommender

Data ETL tools for hadoop ecosystem Morphlines

flume source using mysql-replication-listener to realtime copy data from mysql

Solr: realtime ingest data from mysql to solr using flume

Solr: integrate with hadoop

Running Solr on HDFS

OpenNLP integrate with solr

Apache SOLR and Carrot2 integration strategies 2

最近访客更多访客>>