`
m635674608
  • 浏览: 5053487 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Elasticsearch- 分词查询

 
阅读更多

查看分词的命令, ES配置完成后需要测试分词,看看分词是否达到预期效果。 

curl 命令查看:

1. 使用自定义的分析器查看分词:ansj_index_synonym:自定交分析器名称.  pretty :json格式显示

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. curl -XGET 'http://localhost:8200/zh/_analyze?analyzer=ansj_index_synonym&pretty' -d '童装童鞋'  

 

 

2. 使用自定义的分词器(tokenizer)和过滤器(filters)查看分词:

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. curl -XGET 'http://localhost:8200/zh/_analyze?tokenizer=ansj_index&filters=synonym&pretty' -d '童装童鞋'  

 

 

3. 查询某个字段的分词:

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. curl -XGET 'http://localhost:8200/zh/_analyze?field=brand_name&pretty' -d '童装童鞋'  

 

 

“brand_name”:字段名称,如果是字段是nest,object类型,也可以写成"brand_name. name"

 

除了自定义自己的分析器,ES自己也有内置分析器如:

standard 
simple 
whitespace 
stop 
keyword 
pattern 
language
snowball 
custom

具体解释:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-standard-analyzer.html  

需要英文好点在同鞋。 

 

ES还内置了分词器和过滤器:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-tokenizers.htmlstandard
edge_ngram
keyword
letter
lowercase
ngram 
whitespace 
pattern 
uax_email_url 
path_hierarchy 
ascii folding 
length 
lowercase 
uppercase 
nGram 
edge_ngram 
porter_stem 
shingle 
stop 
word_delimiter 
stemmer 
stemmer_override 
keyword_marker 
keyword_repeat 
kstem 
snowball 
phonetic 
synonym 
reverse 
elision 
truncate 
unique 
pattern_capture 
pattern_replace 
trim 
limit
hunspell 
common_grams 
normalization 
delimited_payload 
keep_words 

elasticsearch-analysis-mmseg

https://github.com/medcl/elasticsearch-analysis-mmseg
基于 http://code.google.com/p/mmseg4j/

elasticsearch-analysis-jieba

https://github.com/huaban/elasticsearch-analysis-jieba

elasticsearch-analysis-ansj

https://github.com/4onni/elasticsearch-analysis-ansj

elasticsearch-analysis-ik

https://github.com/medcl/elasticsearch-analysis-ik

elasticsearch-analysis-paoding

https://github.com/medcl/elasticsearch-analysis-paoding

 

中文分词推荐用ik,mmseg,这两个分词器有更新。

ansj,paoding分词器很久没更新了,没有对应比较高的es版本。

 

分享到:
评论

相关推荐

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...

    elasticsearch-analysis-pinyin-7.4.0 es拼音分词器7.4.0

    Elasticsearch(简称ES)是一款强大的开源搜索引擎,广泛应用于大数据领域的全文检索。它以其高可扩展性、实时性能以及丰富的分析能力著称。在中文环境下,由于汉字的复杂性,分词是实现有效搜索的关键步骤。为此,...

    elasticsearch-analysis-ik 7.10.0 分词器

    **Elasticsearch Analysis IK 7.10.0 分词器详解** Elasticsearch 分词器是搜索引擎核心组件之一,负责将输入的文本拆分成可搜索的独立单元——词语。在中文环境中,这个过程尤为重要,因为中文句子由多个汉字组成...

    elasticsearch-analysis-ik-7.7.1 分词器下载

    Elasticsearch(简称ES)是一款强大的开源搜索引擎,它提供了全文检索、分析和管理工具。在处理中文文本时,由于中文的特殊性(如词语边界不明显),需要借助特定的分词器来对文本进行预处理。"elasticsearch-...

    elasticsearch-analysis-ik-7.10.2.zip

    Elasticsearch(ES)作为一个开源的全文搜索引擎,因其强大的搜索功能和分布式特性而备受青睐。然而,对于中文这种复杂的语言,分词是搜索引擎理解文本的关键步骤。本文将详细介绍elasticsearch-analysis-ik-7.10.2...

    Jieba中文分词插件elasticsearch-jieba-plugin.zip

    elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本,基于 huaban 开源的的 jieba java 实现。使用checkout tag: v5.1.2git checkout v5.1.2运行gradle buildPluginZip创建 ...

    elasticSearch(ES)最新版 ik分词插件7.10 elasticsearch-analysis-ik-7.10.0

    Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene构建,提供了分布式、RESTful风格的搜索和分析引擎服务。在中文环境下,为了实现精确的分词和搜索,我们需要安装适合版本的分词插件,如“elastic...

    elasticsearch-analysis-ik-7.16.3.zip

    在现代大数据分析和搜索引擎领域,Elasticsearch(ES)因其高效、灵活的全文检索能力而备受青睐。然而,对于中文这样的多字节语言,如何准确地进行分词是关键。这时,我们就需要引入专门的中文分词器。本文将详细...

    elasticsearch-analysis-ik 7.17.16 分词器

    Elasticsearch(ES)是一款功能强大的全文搜索引擎,而分析器在ES中扮演着至关重要的角色,它负责将用户输入的文本进行预处理,包括分词、词形还原等步骤。`elasticsearch-analysis-ik`是一个专为Elasticsearch设计...

    最新版 elasticsearch-analysis-ik-8.7.0.zip

    最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip

    IK分词器elasticsearch-analysis-ik-7.17.16

    IK分词器是针对Elasticsearch设计的一款强大的中文分词插件,其全称为"elasticsearch-analysis-ik"。在Elasticsearch中,分词器的作用至关重要,它负责将用户输入的文本进行词汇切分,以便进行后续的搜索和分析操作...

    windows版本ES7.17.3中文分词器elasticsearch-analysis-ik-7.17.3 .zip

    用于elasticsearch7.17.3这个版本的ik中文分词器,考虑到官网有时网络不稳定下载不下来,这里特意上传,方便大家使用; 目录结构如下: config -- 文件夹 plugin-security.policy plugin-descriptor.properties ...

    elasticsearch-analysis-ik-7.10.0.zip下载

    用户在下载并解压此文件后,可以将其安装到Elasticsearch环境中,以增强对中文文档的索引和查询性能。 压缩包中的各个文件如下: 1. httpclient-4.5.2.jar:这是Apache HttpClient库的一个版本,用于实现HTTP协议...

    elasticsearch-analysis-ik-6.8.0.zip

    Elasticsearch 分析插件 IK 分词器是用于优化 Elasticsearch 搜索引擎中文处理的重要工具。在中文环境下,正确的分词对于提升搜索质量和精确性至关重要。IK 分词器因其高效的性能和丰富的自定义功能,在 Elastic...

    elasticsearch-analysis-ik-5.6.8 ik分词器插件

    首先,"elasticsearch-analysis-ik"是专为Elasticsearch设计的中文分词器,它能够有效地对中文文本进行分词,提高中文搜索的准确性和效率。5.6.8版本是该插件的一个稳定版本,与Elasticsearch 5.6.x系列兼容,确保了...

    elasticsearch-analysis-ik-6.3.0 elasticsearch- 6.3.0 分词jar包

    Elasticsearch 分词是搜索引擎优化的关键环节,它允许我们对输入的数据进行精细化处理,以便更好地进行索引和搜索。在本场景中,我们关注的是"elasticsearch-analysis-ik-6.3.0",这是一个针对Elasticsearch 6.3.0...

    elasticsearch-jieba-plugin 8.8.2.zip

    `elasticsearch-jieba-plugin`正是将jieba分词库与Elasticsearch进行了深度融合,使得ES在处理中文文本时能展现出卓越的性能。 安装此插件的过程简单明了。首先,下载`elasticsearch-jieba-plugin 8.8.2.zip`压缩包...

    elasticsearch7.6.1-ik分词器

    **Elasticsearch 7.6.1 - IK 分词器详解** Elasticsearch 是一个流行的、高度可扩展的全文搜索引擎,广泛应用于数据检索、分析和实时数据存储。在中文环境中,为了实现精确的中文分词,我们需要使用适合中文的分词...

    elasticsearch-analysis-ik-7.16.2.zip

    《Elasticsearch分词器:elasticsearch-analysis-ik-7.16.2深度解析》 在信息爆炸的时代,搜索引擎的效能成为了数据检索的关键。Elasticsearch作为一款强大的开源搜索引擎,其灵活性和可扩展性备受青睐。而在中文...

    elasticsearch-analysis-ik-7.3.2.zip

    Elasticsearch(ES)作为一个强大的全文搜索引擎,其在处理中文文档时,对中文分词的准确性和效率有着至关重要的作用。"elasticsearch-analysis-ik"是ES中最受欢迎的中文分词器之一,专为提升中文文本分析性能而设计...

Global site tag (gtag.js) - Google Analytics