Lucene4.3开发之插曲之烽火连城

博客分类：

Lucene(修真篇)

转载请注明，原创地址，谢谢配合! http://qindongliang1922.iteye.com/blog/1938234 上次散仙给大家总结了Lucene中，一些常用Filter的用法和例子，今天，我们在来看下不在Filter家族中的一个特殊的filter，属于Lucene捐赠模块的特殊包中的类DuplicateFilter，这个filter的作用是用来对某个字段进行去重操作的，类似数据库中的Distinct关键字，可以实现对某个列的结果集去重，这个去重的字段，一般情况下是不建议分词的，因为分词后，可能去重效果不准确. 举个例子，来说明分词后去重，会造成什么情况，假如我们的索 ...

2013-09-06 18:12
浏览 5963
评论(0)
分类:编程语言

Lucene4.3开发之第六步之分神中期(六)

博客分类：

Lucene(修真篇)

lucene 过滤 Filter

转载请注明，原创地址，谢谢配合! http://qindongliang1922.iteye.com/blog/1934607 散仙前些日子写了两篇Lucene的插曲，分别是关于分词和分页的知识，虽然当成插曲写，但是其内容还是比较重要的，因为那些知识在实际的运用以及开发中用的还是比较常见，所以还是要用心的了解一下。散仙今天要写的是关于过滤方面的知识，也就是Filter，如果了解Solr的朋友们，肯定都会知道Solr里面fq这个参数，这个参数的作用其实就是lucene里面的过滤，对一些q参数查询的结果集，做过滤或者限制返回一些我们需要的内容，可以理解成缩小搜索空间的一种策略。在这里 ...

2013-08-30 20:17
浏览 6270
评论(2)
分类:编程语言

Lucene4.3开发之插曲之斗转星移

博客分类：

Lucene(修真篇)

lucene 分页技术

允许转载，转载请注明原创地址： http://qindongliang1922.iteye.com/blog/1931191 谢谢配合散仙在上篇文章中，总结了几个Lucene的特殊的分词需求，以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们，那么本篇我们依旧是分析用户需求（哈哈，也不算是用户需求，群里面(324714439)朋友们提问的问题），然后找到最合适的解决方法。我们先来看下下面的问题，现在我们的索引里有2亿多的数据，那么现在的需求是，把索引里的全部数据，读取然后写入txt文本里，对于这么一个量级的数据，显然是不可能一下子全部读取完的，那得要多大的内存 ...

2013-08-26 18:08
浏览 4603
评论(0)
分类:编程语言

Lucene4.3开发之插曲之包容万物

博客分类：

Lucene(修真篇)

lucene 单字切分分词器

允许转载，转载请注明原创地址： http://qindongliang1922.iteye.com/blog/1927605 谢谢配合最近在群里面(324714439)遇到几位朋友提出了一些特殊的分词需求，在此做个总结。本来的Lucene的内置的分词器，差不多可以完成我们的大部分分词工作了，如果是英文文章那么可以使用StandardAnalyzer标准分词器，WhitespaceAnalyzer空格分词器,对于中文我们则可以选择IK分词器，Messeg4j,庖丁等分词器。我们先来看看下面的几个需求编号需求分析1按单个字符进行分词无论是数字，字母还是特殊符号2按特定的字符进行分词， ...

2013-08-20 15:23
浏览 7945
评论(5)
分类:编程语言

马云网商大会精彩语录:不会欣赏自己很难超越别人

博客分类：

生活感悟

生活互联网

“忽悠”一定要看对象，谁是你的客户要搞清楚。如果你觉得自己不好，你就没有好的机会. 我自己承认擅“忽悠”，12年前“忽悠”了18个人一起创业，现在也“忽悠”了很多的网商，但不后悔，看到现在的成果，觉得很满足 ...

2013-08-14 21:31
浏览 1297
评论(0)
分类:非技术

Lucene4.3开发之第五步之融丹筑基(五)

博客分类：

Lucene(修真篇)

lucene 全文检索排序

本文章允许转载，转载请注明原创地址 http://qindongliang1922.iteye.com/blog/1924608 排序是对于全文检索来言是一个必不可少的功能，在实际运用中，排序功能能在某些时候给我们带来很大的方便，比如在淘宝，京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品，或者通过排序来找到评论数最高或卖的最好的商品，再比如在Iteye里的博客栏里，每天都会以降序的方式，来显示出最新发出的几篇博客，有了排序，我们就能在某些时候很方便快速的得到某些有效信息，所以说排序功能，无处不在 ^_^。那么，本篇散仙就来看下我们在Lucene中怎么使用其丰富的排序 ...

2013-08-14 17:57
浏览 8598
评论(0)
分类:编程语言

Lucene4.3开发之第四步之脱胎换骨(四)

博客分类：

Lucene(修真篇)

lucene solr java 中文分词 IK

为防止，一些小网站私自盗用原文，请支持原创原文永久链接:http://qindongliang1922.iteye.com/blog/1922742 前面几章笔者把Lucene基本入门的任督二脉给打通了，从此篇开始，就开始进行Lucene的进阶开发了，那么首先摆在我们面前的第一个必须要解决的问题，就是关于中文分词的问题，因为Lucene毕竟是国外的大牛们开发的，显然会比较侧重英文文章，不过还好，在Lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次Lucene有新的版本发行，这个包同时更新。笔者比较推荐的中文分词器是IK分词器，在进入正式的讲解之前，我们 ...

2013-08-09 18:40
浏览 9995
评论(12)
分类:编程语言

很有哲理的句子，每天都值得看一遍

博客分类：

生活感悟

工作生活情感哲理

1.事业永远第一　　虽然金钱不是万能的，但没有钱是万万不能的，虽然这句话很俗，但绝对有道理，所以30岁之前，请把你大部分精力放在你的事业上。 2.别把钱看得太重　　不要抱怨自己现在工资低，银行存款4位数以下� ...

2013-08-08 15:52
浏览 1674
评论(0)
分类:非技术

Lucene4.3开发之第三步之温故知新(三)

博客分类：

Lucene(修真篇)

lucene java 全文检索 solr

前面几篇笔者已经把Lucene的最基本的入门，介绍完了，本篇就对Lucene基本的知识做一个总结，以便于加深对Lucene基本API组件的理解。为了方便对比学习，下面给出表格数据索引期间使用的API组件检索期间使用的API组件IndexWriterIndexReaderIndexWriterConfigIndexSearcherDirectoryDirectoryAnalyzerQueryParser或者Query子类DocumentTopDocsFieldScoreDoc--Term 下面笔者就对上图组件一一剖析下首页要介绍的就索引期间的各个类 1,IndexWr ...

2013-08-07 18:30
浏览 5083
评论(1)
分类:开源软件

Ajax传参之url中特殊字符的处理之血站八方

博客分类：

JAVA

ajax java javascript

笔者，先贴出这个错误在Java后台中所报出的异常八月 01, 2013 5:08:46 下午 org.apache.tomcat.util.http.Parameters processParameters 信息: Character decoding failed. Parameter [entityDoc.abstrat] with value [my name is 7is%207%%20and%206%7] has been ignored. Note that the name and value quoted here may be corrupted due to the ...

2013-08-01 18:45
浏览 6611
评论(0)
分类:编程语言

JSON之解析利器GSON

博客分类：

Gson
JAVA

json gson java

Gson（又称Google Gson）是Google公司发布的一个开放源代码的Java库，主要用途为串行化Java对象为JSON字符串，或反串行化JSON字符串成Java对象。GSON核心jar包不到1M，非常精简，但提供的功能无疑是非常强大的，如果使用JDK自带的JSON解析API，使用起来相对比较繁琐一点，而且代码量较多。下面通过一个表格来了解一下，GSON目前的发展状况初始版本2008年5月22日最新版本(稳定版本)2.2.4/2013年5月13日；2个月前编程语言Java操作平台各种平台许可协议Apache License 2.0官方网站http://code.google. ...

2013-07-30 17:58
浏览 7555
评论(0)
论坛回复 / 浏览 (8 / 33637)
分类:编程语言

Lucene4.3开发之第二步初入修真(二)

博客分类：

Lucene(修真篇)

lucene 全文检索 demo增删改查

上次笔者简单介绍下了，Lucene的入门搭建以及一个添加的Demo，这次写了一个包含增删改查比较完整的例子，以供各位入门新手的道友们参考，当然这个只是最简单的封装，有很多参数都是写死的，所以有点不灵活，各位朋友也可以自己试着参考笔者的Demo封装一个比较通用的例子，在实际的项目环境中，封装一定要做到既通用又灵活，这个看各位的业务的需求了，不同的业务需求可能不一样。在入门，搭建好最基本的环境之后，增删改查只是一个最基础层次也是不可或缺的必要的一部分，后续根据业务的复杂层次不一样，可能需要用到各种技术，包括分词，评分，分组，排序，增量，高亮，拼写检查，文本聚类，各种复杂的检索等等，这些都是构 ...

2013-07-29 18:23
浏览 8049
评论(5)
分类:开源软件

Lucene4.3开发之第一步小试牛刀（一）

博客分类：

Lucene(修真篇)

lucene 入门全文检索

首页，本篇适合对于刚学lucene的朋友们，在这之前笔者还是喜欢啰嗦几句，想要学好一门技术，首先就得从思想层次上全面了解这种技术的作用，适用范围，以及优缺点，对于这些理论，大家可以先在Google，或百度上深入了解一� ...

2013-07-25 16:47
浏览 8333
评论(0)
分类:开源软件

lucene开发序幕曲之luke神器

博客分类：

Lucene(修真篇)

luke lucene 搜索引擎全文检索

lucene是一款很优秀的全文检索的开源库，目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况，在这里笔者就不多介绍了，如果你真心想学习lucene，想必在这之前你已经对此作过一些了解。有很多人知道lucene或者solr，� ...

2013-07-25 11:28
浏览 8460
评论(39)
分类:开源软件

七月有感

博客分类：

生活感悟

生活情感奋斗

忙碌的世界，依旧在分分秒秒的运行。我闭上眼睛默默的感受着这一刻的喧嚣，最初的梦想，已经踏上征程，此时此刻，我想在心里大声的喊出，时不我待，青春无悔！转瞬间，时间已经到了七月的末尾，而对于这个夏天来说� ...

2013-07-24 18:09
浏览 1146
评论(1)
分类:非技术

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Lucene4.3开发之插曲之烽火连城

Lucene4.3开发之第六步之分神中期(六)

Lucene4.3开发之插曲之斗转星移

Lucene4.3开发之插曲之包容万物

马云网商大会精彩语录:不会欣赏自己很难超越别人

Lucene4.3开发之第五步之融丹筑基(五)

Lucene4.3开发之第四步之脱胎换骨(四)

很有哲理的句子，每天都值得看一遍

Lucene4.3开发之第三步之温故知新(三)

Ajax传参之url中特殊字符的处理之血站八方

JSON之解析利器GSON

Lucene4.3开发之第二步初入修真(二)

Lucene4.3开发之第一步小试牛刀（一）

lucene开发序幕曲之luke神器

七月有感

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>