最新文章列表

【手把手教你全文检索】Lucene索引的【增、删、改、查】

前言   搞检索的,应该多少都会了解Lucene一些,它开源而且简单上手,官方API足够编写些小DEMO。并且根据倒排索引,实现快速检索。本文就简单的实现增量添加索引,删除索引,通过关键字查询,以及更新索引等操作。   目前博猪使用的不爽的地方就是,读取文件内容进行全文检索时,需要自己编写读取过程(这个solr免费帮我们实现)。而且创建索引的过程比较慢,还有很大的优化空间,这个就要细心下来研究 ...
changhongbao 评论(0) 有388人浏览 2017-10-16 21:43

【手把手教你全文检索】Apache Lucene初探

讲解之前,先来分享一些资料     首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等。这里就贡献一个讲解很到位的ppt。已经被我转成了PDF,便于搜藏。     其次,关于第一次编程初探,建议还是查看官方资料。百度到的资料,目前Lucene已经更新到4.9版本,这个版本需要1.7以上的JDK,所以如果还用1.6甚至是1.5的小盆友,请参考低 ...
changhongbao 评论(0) 有354人浏览 2017-10-16 21:31

lucene学习--来源csdn

一篇好的lucene文档http://blog.csdn.net/u014386474/article/details/51614180
liushuiwuyan 评论(0) 有361人浏览 2017-09-29 09:11

简历打分排序

     部门给我找了点事做,帮筛选简历.估计是觉得我加班少了.为了不浪费时间,写了个简单的简历内容打分排序,以后直接排序转发      代码如下:       package com.lu; import java.io.IOException; import java.io.StringReader; import java.io.UnsupportedEncodingExc ...
solong2008 评论(0) 有533人浏览 2017-09-16 09:17

ElasticSearch集群中client节点出现ping不通,不可访问问题

【问题现象】 ElasticSearch集群中client节点,访问几天后,出现client所在主机ping不通,通过vm管理机查看,发现主机在运行但黑屏,而且登录不进去。 【问 ...
can_do 评论(0) 有1789人浏览 2017-09-04 17:31

Lucene全文检索引擎

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 ...
1151461406 评论(0) 有708人浏览 2017-08-04 15:42

Lucene JAVA全文检索引擎

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucen ...
1151461406 评论(0) 有477人浏览 2017-08-03 15:15

Solr/Lucene使用docValue查询的一个坑

发现问题 最近在使用docValue发现了一个坑,初学者稍不注意很有可能入坑,进而会得出Lucene性能有问题的结论,所以我需要将这个坑填平以正视听。 接到业务方的一个需求,需要在查询结果上按照某一个字段去除重复,假设有以下两条记录: 学号 班级id 班级排名 001 1 1 002
mozhenghua 评论(0) 有2510人浏览 2017-06-21 18:26

区分ElasticSearch中的Mapping和Type

区分mapping和type 理解:在同一个index中,不同type但相同名称的field,必须具有相同的mapping 而mapping定义了文档中的每一个field如何被索引和被查询到。 区别: (1)type(类型)是索引的逻辑分区(类似tenant)。在索引中,可以定义一个或多个类型。     Type由名称和Mapping组成,type表示一类相似的document。 (2)Map ...
can_do 评论(0) 有3096人浏览 2017-05-09 10:32

(转)elasticsearch堆内存:大小和交换

堆内存:大小和交换 Elasticsearch 默认安装后设置的堆内存是 1 GB。对于任何一个业务部署来说,这个设置都太小了。如果你正在使用这些默认堆内存配置,您的集群可能会出现问题。 这里有两种方式修改 Elasticsearch 的堆内存。最简单的一个方法就是指定 ES_HEAP_SIZE 环境变量。服务进程在启动时候会读取这个变量,并相应的设置堆的大小。比如,你可以用下面的命令设置它: ...
ChenghuiZ 评论(0) 有1106人浏览 2017-03-29 11:19

solr、lucene的效率分析的一个文章

链接:https://wiki.apache.org/solr/SolrPerformanceProblems? 主要讲了:gc、commit、内存大小(包括java、os),cache(涉及到warm)对性能的影响,讲的很好。    
suichangkele 评论(0) 有963人浏览 2017-03-24 17:18

实现得分的PrefixQuery

(先声明一下,我使用的lucene的版本是lucene4.7.2) 在lucene中,有一种类型的query叫做MultiTermQuery,故名思议,他是要涉及到很多个term的query,比如我们 ...
suichangkele 评论(0) 有1510人浏览 2017-03-16 19:38

YDB技术原理

  第十二章YDB技术原理 一、铺一条让Spark跑的更快的路   二、YDB的本质 在Spark之上基于搜索引擎技术,实现索引和搜索功能。 既有搜索引擎的查询速度,又有Spark强大的分析计算能力。 可对多个字段进行关键字全匹配或模糊匹
muyannian2016 评论(0) 有504人浏览 2017-02-20 12:15

Lucene 6.0 提取新闻热词Top-N

Lucene 6.0 提取新闻热词Top-N
java-007 评论(0) 有798人浏览 2017-02-08 15:54

Solr PostFilter优化查询性能

背景        实际业务场景中,有时会需要两阶段过滤,最终的搜索结果是在前一个搜索结果上进一步搜索而得到的(search-within-search)的特性。        假设,最终搜索结果集是由(A AND B)两个条件对应的命中结果集求交而得到的。如果A条件对应的文档集合非常小(大概不超过300个),而B条件对应的文档集合非常大。在这样的场景下在solr中使用二阶段过滤的方式来查询就 ...
mozhenghua 评论(0) 有1075人浏览 2017-02-07 14:20

lucene3.0.3中的数字索引以及数字范围查询

      我看了3个下午,加上一个上午终于看懂了lucene对于数字的索引和对于数字范围的检索,主要的时间都是花在了NumericRangeQuery上,尽管一次一次的失败但是我并没有放弃的打算,研究与探索本来就是我的一大兴趣,最后的喜悦要比之前所有的痛苦都要来的爽!谢谢笔记,方便可能正在迷茫的你。备注:如果你对lucene的索引格式不熟悉尤其刚接触lucene的话,请绕行,这片笔记只适合对源 ...
suichangkele 评论(0) 有1372人浏览 2017-01-09 15:40

Lucene 或者 solr 有什么不一样

首先Solr是基于Lucene做的,Lucene是一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用Lucene时你仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。而Solr的目标是打造一款企业级的搜索引擎系统,因此它更接近于我们认识到的搜索引擎系统,它是一个搜索引擎服务,通过各种API可以让你的应用使用搜索服务,而不需要 ...
weitao1026 评论(0) 有618人浏览 2016-12-14 10:04

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics