最新文章列表

ElasticSearch中分词器组件配置详解

首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由Apache Lucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。 所以要想熟练的掌握的关于es中分词方面的知识,一定得先从Lucene抓起,否则只会是丈二和尚摸不着头脑,当然我们大多数开发者只关注于怎么用,偏底层的东东,也没有太多时间去深究,这也有情可原,遇到问题再去探究,也何尝不是 ...
qindongliang1922 评论(0) 有2759人浏览 2015-11-23 20:03

IK分词器原理与原码分析

本文链接: http://quentinXXZ.iteye.com/blog/2180215 引言      做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好理解,每当数据库的单个表大了,就是一件头疼的事,还有在较大数据量级的情况下,你让数据库去做 ...
quentinXXZ 评论(0) 有6704人浏览 2015-01-26 21:38

Lucene4.3进阶开发之纯阳无极(十九)

原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/blog/2164583 Lucene内置很多的分词器工具包,几乎涵盖了全球所有的国家和地区,最近散仙,在搞多语言分词的一个处理,主要国家有西班牙,葡萄牙,德语,法语,意大利,其实这些语系都与英语非常类似,都是以空格为分割的语种。 那么首先,探讨下分词器的词形还原和词干提取的对搜索的意 ...
qindongliang1922 评论(1) 有2740人浏览 2014-12-09 16:37

Lucene使用说明

Lucene使用说明 1、lucene简介 1.1、什么是lucene     Lucene是一个全文搜索框架,而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用,它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么     要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字 ...
dyy_gusi 评论(1) 有2690人浏览 2014-09-14 12:34

Windows下面安装和配置Solr 4.9 支持中文分词器

配置solr4.9自带的中文分词器请看这片文章:http://www.cnblogs.com/qiyebao/p/3888181.html 配置 流行的 IK Analyzer分词器 schema.xml文件中增加配置: <fieldType name="ik_text" class="solr.TextField"> < ...
高军威 评论(0) 有1725人浏览 2014-09-01 14:03

lucene自定义分词器

感谢http://qindongliang1922.iteye.com/blog/1927605  这篇文章让我豁然开朗~ 建议研究lucene时一定要下载源码   下面代码中有个bug,,,一开始没弄没明白,在用这个分词器进行索引后发现搜不到东西。。是tokenStart和tokenEnd的错,这2个表示该词所在位置,,我这样说不知道对不对,但我感觉我的意思已经表达出来   pac ...
北风norther 评论(0) 有2600人浏览 2014-07-23 10:31

读IKAnalyzer源码之IK启动

IKAnalyzer非常流行的中文分词器,对中文切词有兴趣的朋友可以看看。 基本所有的框架都分两部分,一是:框架的初始化,也就是框架启动;二是:调用框架,让框架为我们做一些事。我们今天先来看看一下IK的初始化过程。 IKAnalyzer可以说一个非常流行的分词器了,但我觉得IKAnalyzer的代码写一般。 废话就不多说了,直接看源码吧。IKAnalyzer挂在Google上,直接到google ...
破晓初 评论(0) 有3438人浏览 2013-10-13 00:13

Lucene4.3开发之插曲之包容万物

允许转载,转载请注明原创地址: http://qindongliang1922.iteye.com/blog/1927605 谢谢配合 最近在群里面(324714439)遇到几位朋友提出了一些特殊的分词需求,在此做个总结。本来的Lucene的内置的分词器,差不多可以完成我们的大部分分词工作了,如果是英文文章那么可以使用StandardAnalyzer标准分词器,WhitespaceAnalyz ...
qindongliang1922 评论(5) 有7927人浏览 2013-08-20 15:23

Lucene Analyzer(分词器)

Analyzer(分词器) 分词器能以某种规则对关键字进行分词,将分好的词放到目录中,以作为检索到的条件,在创建索引时会使用到分词器,在搜索时也将用到 ...
long_yu2 评论(0) 有2340人浏览 2012-04-19 22:53

Lucene01---几个概念理解

  在http://xdwangiflytek.iteye.com/blog/1386439里我简单的介绍了一下SEO,下面来学习一下Lucene技术,这部分先来理解几个概念。 信息检索概念:        信 ...
xdwangiflytek 评论(0) 有1823人浏览 2012-02-01 22:50

关于一些中文分词器

    找了一些,列出来,备忘.部分内容来自http://lihaiyan.iteye.com/blog/127674     1 计算所汉语词法分析系统 ICTCLAS     中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Anal ...
h_rain 评论(0) 有5707人浏览 2008-03-10 16:35

最近博客热门TAG

Java(141746) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics