业务目的:
数据在hive中,用 location:山东,河北,陕西 这种来存储,后入到hbase中,
现在将hbase数据导入solr后,同时期待 搜索 location:山东 location:河北 location:陕西 都能搜索到这条记录
处理流程:
solr schema.xml中,
<field name="locaiton" type="string" indexed="true" stored="true" required="false" multiValued="true"/>
multiValued: 多值
然后在代码(map中),写法如下:
if("location".equals(fieldName)) {
String[] vals = fieldValue.split(",");
for(String val : vals){
solrDoc.addField("location",val);
}
}
这样,虽在在solr中查看的时候界面样子:
"location" : [
"山东",
"河北",
"陕西"
]
但是solr界面搜索 location:"山东" 都能搜索到,达到目的。
参考链接:
相关推荐
ikanalyzer 是一个专门为Java开发的中文...总之,ikanalyzer-solr8.4.0 是 Solr 8.4.0 版本下用于中文分词的重要工具,通过合理的配置和使用,可以显著提高 Solr 对中文文本的处理能力,从而提升搜索质量和用户体验。
此外,还可以配置 `termVectors`、`compressed`、`multivalued` 等属性以满足不同的搜索需求。 总之,Solr 是一个强大的基于 Lucene 的搜索引擎,提供了一套完整的企业级搜索解决方案,包括易于部署、管理以及定制...
理解各种字段类型(如text、int、date等)及其属性(如stored、indexed、multiValued等)至关重要。 4. **数据导入导出(DIH,DataImportHandler)**:Solr提供了数据导入工具,用于从数据库或其他数据源批量导入...
`useSmart`属性控制分词模式,设为`true`时启用智能分词,设为`false`时使用非智能分词。 配置完成后,重启Tomcat服务器,Solr会重新加载配置。现在,你可以通过Solr的管理界面创建一个新的索引,导入数据,并使用...
在本主题中,我们将深入探讨如何在Solr中导入并使用IK分词器。 一、IK分词器介绍 IK分词器是针对中文自然语言处理的一种优秀工具,主要功能是对中文文本进行分词,将连续的汉字序列分解成具有语义的词语。它支持...
<field name="content" type="text_ik" indexed="true" stored="true" required="false" multiValued="false"/> ``` - 在`<types>`标签内定义字段类型,这里使用`text_ik`,表示使用IK Analyzer: ```xml ...
标题中的“solr配置IK分词器Jar包和配置文件”意味着我们需要将IK分词器的相关库文件(Jar包)添加到Solr的类路径中,并且对Solr的配置文件进行适当的修改,以便Solr知道如何使用这个分词器。 首先,你需要下载IK...
Solr是一款强大的全文搜索引擎,广泛应用于各种大数据检索场景。在中文环境下,为了实现精确的分词,我们...通过上述步骤,你应该能在Solr 6.0环境中成功使用ikanalyzer进行中文分词,为你的应用提供更精准的搜索体验。
- **版本兼容性问题**:检查所使用的Solr版本与MMSeg4J版本之间是否存在兼容性问题。 - **日志分析**:查看Tomcat的日志文件,定位具体的错误原因,并根据错误信息进行相应的调整。 通过以上步骤,可以有效地完成...
然后,在需要使用 IKAnalyzer 的字段下,设置 `type` 属性为此字段类型,如: ```xml <field name="content" type="text_ik" indexed="true" stored="true" multiValued="false"/> ``` 4. **更新 Solr 配置**:...
<field name="content" type="text_ik" indexed="true" stored="true" multiValued="false" /> ``` 接下来,我们谈谈Sougou词库。Sougou.dic文件包含了搜狗输入法的词库,包含了大量的常用词汇和短语,能够进一步...
1. 在`schema.xml`文件中,定义一个新的字段类型(FieldType),例如命名为`pinyin_type`,并设置`analyzer`属性来指定使用`HanspellAnalyzer`。 ```xml <fieldType name="pinyin_type" class="solr.TextField" ...
通过以上步骤,我们可以成功地在Solr中创建和配置新的Core,同时利用Schema.xml来定制域的特性和使用中文分词器进行文本分析,从而优化索引和查询性能。对于大规模的文本数据处理,这些配置至关重要。
- **schema.xml文件**:该文件位于SolrCore的conf目录下,是Solr的核心配置文件之一,用于定义索引结构、字段属性以及各种高级配置。 - **域定义**: - `<field>`:用于定义具体字段的配置项。 - `name`:字段名称...
这里,`useSmart`属性用于控制分词模式,设为"true"表示使用智能切分,更适合全文检索;设为"false"则表示简单切分,适合关键词检索。 3. 将字段类型应用到需要分词的字段上,例如: ```xml ...
### Solr中的schema.xml详解 在Solr搜索服务器中,`schema.xml` 文件扮演着核心配置文件的角色,它定义了索引字段、字段类型以及其他与数据结构相关的设置。正确理解和配置`schema.xml`对于实现高性能的全文检索...