1.Solr自带分词器对中文支持不好
1.1 默认分词器
字段类型: text_ja
字段类型:text_general
小结:
Solr自带的分词器对中文分词效果不理想,要么不分词,要么所有汉字都被分隔开来。所以需要增加理想的中文分词插件。
2. mmseg4j分词器
2.1 下载
从https://github.com/chenlb/mmseg4j-solr/wiki下载
2.2 拷贝jar包
拷贝到SolrCloud所有节点(node1,node2,node3)的/usr/local/src/solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录下。
2.2 编辑node1的配置文件schema.xml
3. IK Analyzer分词器[推荐]
3.1下载源码
https://github.com/EugenePig/ik-analyzer-solr5
3.2 手动使用maven编译jar包
摘自:https://github.com/EugenePig/ik-analyzer-solr5/blob/master/README.md
3.3 编译结果:
该包内部结构:自己包含了所需的配置文件
3.4 拷贝jar到solrcloud所有节点中
拷贝到所有节点的目录/usr/local/src/solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib中
3.5配置solr的schema.xml
3.6 重新创建collection
3.7 分词测试
使用text_ik分词:
对比text_general分词效果:
相关推荐
标题中的"IKAnalyzer 支持Solr-5.5.0"表明了这个压缩包是为集成IK Analyzer到Apache Solr 5.5.0版本而准备的。IK Analyzer是一款针对中文分词的开源工具,它在处理中文文本时表现优秀,能够提高搜索引擎的检索效果。...
"apache-solr-dataimportscheduler-1.0.zip"是一个官方发布的54l版本,专门针对Solr 5.x的定时索引生成需求。 数据导入调度器(DataImportScheduler)是这个扩展的核心组件,它允许用户根据预设的时间间隔自动执行...
solrJ是Java连接solr进行查询检索和索引更新维护的jar包。
solr-mongo-importer-1.1.0.jar solr-mongo-importer-1.1.0.jar solr-mongo-importer-1.1.0.jar
"apache-solr-dataimportscheduler.jar" 是一个专门为Solr设计的扩展包,用于实现自动化的数据增量更新调度。 首先,我们要理解Solr的数据导入过程。Solr使用DataImportHandler(DIH)来从关系型数据库、XML文件或...
solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-...
这个名为"apache-solr-3.5.0.jar"的压缩包包含两个关键组件:`apache-solr-core-3.5.0.jar`和`apache-solr-solrj-3.5.0.jar`,它们对于成功搭建Solr 3.5.0环境至关重要。 1. `apache-solr-core-3.5.0.jar`: 这是...
Solr-8.11.1是该软件的一个特定版本,包含了最新的特性和改进。 在"solr-8.11.1.tgz"这个压缩包中,我们可以期待找到以下关键组成部分: 1. **Solr WAR 文件**:这是核心的搜索服务器应用程序,通常命名为`solr....
Solr 数据导入调度器(solr-dataimport-scheduler.jar)是一个专门为Apache Solr 7.x版本设计的组件,用于实现数据的定期索引更新。在理解这个知识点之前,我们需要先了解Solr的基本概念以及数据导入处理...
Solr-9.0.0是该软件的最新版本,此版本可能包含了一些新的特性和改进,比如性能优化、新的查询语法、更强大的分析器等。 在Solr-9.0.0的压缩包中,通常会包含以下组件: 1. **bin** 文件夹:这个目录下有启动和...
标题中的"solr-dataimporthandler的jar包"指的是 Solr 用于实现数据导入功能的两个核心 JAR 文件: 1. `solr-dataimporthandler-6.0.1.jar`:这是 DIH 的主库,包含了处理数据导入过程所需的类和方法。它提供了数据...
这里我们将围绕"solr-9.0.0-src.tgz"这个源码包,详细探讨其主要组成部分、核心功能以及开发过程中的关键知识点。 1. **Solr架构** Solr的架构基于Lucene,一个强大的全文搜索引擎库。它提供了分布式、可扩展、高...
Solr-4.10.3是Solr的一个稳定版本,发布于2014年,包含了对之前版本的各种改进和优化。 在Solr-4.10.3中,主要包含以下几个核心知识点: 1. **SolrCloud模式**:SolrCloud是Solr的一种分布式部署模式,引入了...
标题"solr-7.4.0.zip"表明这是一个包含了Solr 7.4.0版本的压缩包文件,该版本发布于2018年,包含了完整的Solr服务器及其相关组件。 在描述中提到,“solr7需要java8环境”,这是因为Solr的运行依赖于Java平台,特别...
本文将深入探讨mmseg4j在Solr中的应用,以及如何在Solr 6.3版本中集成并使用mmseg4j-solr-2.4.0.jar这个库。 首先,mmseg4j是由李智勇开发的一个基于Java的中文分词工具,它的全称是“Minimum Match Segmentation ...
Solr-dataimportscheduler-1.1.1.jar 是一个针对Apache Solr的扩展插件,主要功能是实现数据的增量导入。Apache Solr是一个流行的开源全文搜索引擎,它提供了高效的搜索和索引能力,广泛应用于网站内容检索、产品...
首先,你需要从 Apache 官方网站下载 `solr-8.8.2.tgz` 文件。完成下载后,使用 `tar` 命令解压文件: ``` tar -zxvf solr-8.8.2.tgz ``` 2. **配置环境变量**: 为了方便使用 Solr 的命令行工具,可以将 Solr...
solr自动更新包
在"solr6--solr-dataimporthandler-scheduler-1.1"这个项目中,我们关注的重点是DIH的调度功能,也就是如何定期自动更新Solr索引。 DataImportHandler(DIH)是Solr的一个插件,用于从关系型数据库或其他结构化数据...
在标题提到的"solr定时自动同步数据库需要用到的apache-solr-dataimportscheduler.jar包"中,`apache-solr-dataimportscheduler.jar`是用于实现Solr数据导入计划任务的扩展插件。这个插件使我们能够设置定时任务,...