`
qindongliang1922
  • 浏览: 2183690 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117522
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59896
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71300
社区版块
存档分类
最新评论
文章列表
转载请注明,原创地址,谢谢配合! http://qindongliang1922.iteye.com/blog/1938234 上次散仙给大家总结了Lucene中,一些常用Filter的用法和例子,今天,我们在来看下不在Filter家族中的一个特殊的filter,属于Lucene捐赠模块的特殊包中的类DuplicateFilter,这个filter的作用是用来对某个字段进行去重操作的,类似数据库中的Distinct关键字,可以实现对某个列的结果集去重,这个去重的字段,一般情况下是不建议分词的,因为分词后,可能去重效果不准确. 举个例子,来说明分词后去重,会造成什么情况,假如我们的索 ...
转载请注明,原创地址,谢谢配合! http://qindongliang1922.iteye.com/blog/1934607 散仙前些日子写了两篇Lucene的插曲,分别是关于分词和分页的知识,虽然当成插曲写,但是其内容还是比较重要的,因为那些知识在实际的运用以及开发中用的还是比较常见,所以还是要用心的了解一下。 散仙今天要写的是关于过滤方面的知识,也就是Filter,如果了解Solr的朋友们,肯定都会知道Solr里面fq这个参数,这个参数的作用其实就是lucene里面的过滤,对一些q参数查询的结果集,做过滤或者限制返回一些我们需要的内容,可以理解成缩小搜索空间的一种策略。 在这里 ...
允许转载,转载请注明原创地址: http://qindongliang1922.iteye.com/blog/1931191 谢谢配合 散仙在上篇文章中,总结了几个Lucene的特殊的分词需求,以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们,那么本篇我们依旧是分析用户需求(哈哈,也不算是用户需求,群里面(324714439)朋友们提问的问题),然后找到最合适的解决方法。 我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存 ...
允许转载,转载请注明原创地址: http://qindongliang1922.iteye.com/blog/1927605 谢谢配合 最近在群里面(324714439)遇到几位朋友提出了一些特殊的分词需求,在此做个总结。本来的Lucene的内置的分词器,差不多可以完成我们的大部分分词工作了,如果是英文文章那么可以使用StandardAnalyzer标准分词器,WhitespaceAnalyzer空格分词器,对于中文我们则可以选择IK分词器,Messeg4j,庖丁等分词器。 我们先来看看下面的几个需求 编号需求分析1按单个字符进行分词无论是数字,字母还是特殊符号2按特定的字符进行分词, ...
“忽悠”一定要看对象,谁是你的客户要搞清楚。 如果你觉得自己不好,你就没有好的机会. 我自己承认擅“忽悠”,12年前“忽悠”了18个人一起创业,现在也“忽悠”了很多的网商,但不后悔,看到现在的成果,觉得很满足 ...
  本文章允许转载,转载请注明原创地址 http://qindongliang1922.iteye.com/blog/1924608 排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。 那么,本篇散仙就来看下我们在Lucene中怎么使用其丰富的排序 ...
  为防止,一些小网站私自盗用原文,请支持原创   原文永久链接:http://qindongliang1922.iteye.com/blog/1922742   前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。 笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解之前,我们 ...
1.事业永远第一   虽然金钱不是万能的,但没有钱是万万不能的,虽然这句话很俗,但绝对有道理,所以30岁之前,请把你大部分精力放在你的事业上。 2.别把钱看得太重   不要抱怨自己现在工资低,银行存款4位数以下 ...
前面几篇笔者已经把Lucene的最基本的入门,介绍完了,本篇就对Lucene基本的知识做一个总结,以便于加深对Lucene基本API组件的理解。 为了方便对比学习,下面给出表格数据 索引期间使用的API组件检索期间使用的API组件IndexWriterIndexReaderIndexWriterConfigIndexSearcherDirectoryDirectoryAnalyzerQueryParser或者Query子类DocumentTopDocsFieldScoreDoc--Term       下面笔者就对上图组件一一剖析下 首页要介绍的就索引期间的各个类 1,IndexWr ...
笔者,先贴出这个错误在Java后台中所报出的异常 八月 01, 2013 5:08:46 下午 org.apache.tomcat.util.http.Parameters processParameters 信息: Character decoding failed. Parameter [entityDoc.abstrat] with value [my name is 7is%207%%20and%206%7] has been ignored. Note that the name and value quoted here may be corrupted due to the ...
Gson(又称Google Gson)是Google公司发布的一个开放源代码的Java库,主要用途为串行化Java对象为JSON字符串,或反串行化JSON字符串成Java对象。GSON核心jar包不到1M,非常精简,但提供的功能无疑是非常强大的,如果使用JDK自带的JSON解析API,使用起来相对比较繁琐一点,而且代码量较多。 下面通过一个表格来了解一下,GSON目前的发展状况 初始版本2008年5月22日最新版本(稳定版本)2.2.4/2013年5月13日;2个月前编程语言Java操作平台各种平台许可协议Apache License 2.0官方网站http://code.google. ...
上次笔者简单介绍下了,Lucene的入门搭建以及一个添加的Demo,这次写了一个包含增删改查比较完整的例子,以供各位入门新手的道友们参考,当然这个只是最简单的封装,有很多参数都是写死的 ,所以有点不灵活,各位朋友也可以自己试着参考笔者的Demo封装一个比较通用的例子,在实际的项目环境中,封装一定要做到既通用又灵活,这个看各位的业务的需求了,不同的业务需求可能不一样。 在入门,搭建好最基本的环境之后,增删改查只是一个最基础层次也是不可或缺的必要的一部分,后续根据业务的复杂层次不一样,可能需要用到各种技术,包括分词,评分,分组,排序,增量,高亮,拼写检查,文本聚类,各种复杂的检索等等,这些都是构 ...
首页,本篇适合对于刚学lucene的朋友们,在这之前笔者还是喜欢啰嗦几句,想要学好一门技术,首先就得从思想层次上全面了解这种技术的作用,适用范围,以及优缺点,对于这些理论,大家可以先在Google,或百度上深入了解一 ...
lucene是一款很优秀的全文检索的开源库,目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况,在这里笔者就不多介绍了,如果你真心想学习lucene,想必在这之前你已经对此作过一些了解。 有很多人知道lucene或者solr, ...
忙碌的世界,依旧在分分秒秒的运行。我闭上眼睛默默的感受着这一刻的喧嚣,最初的梦想,已经踏上征程,此时此刻,我想在心里大声的喊出,时不我待,青春无悔! 转瞬间,时间已经到了七月的末尾,而对于这个夏天来说 ...
Global site tag (gtag.js) - Google Analytics