最新文章列表

生产环境使用elasticsearch遇到的一些问题以及解决方法

1.由gc引起节点脱离集群      因为gc时会使jvm停止工作,如果某个节点gc时间过长,master ping3次(zen discovery默认ping失败重试3次)不通后就会把该节点剔除出集群,从而导致索引进行重新分配。 解决方法: (1)优化gc,减少gc时间。(2)调大zen discovery的重试次数(es参数:ping_retries)和超时时间(es参数:ping_t ...
wbj0110 评论(0) 有1137人浏览 2013-10-18 09:30

8.分布式搜索elasticsearch java API ------使用More like this实现基于内容的推荐

基于内容的推荐通常是给定一篇文档信息,然后给用户推荐与该文档相识的文档。Lucene的api中有实现查询文章相似度的接口,叫MoreLikeThis。Elasticsearch封装了该接口,通过Elasticsearch的More like this查询接口,我们可以非常方便的实现基于内容的推荐。 先看一个查询请求的json例子:   [plain] view plaincopy ...
wbj0110 评论(0) 有950人浏览 2013-10-17 21:21

7.分布式搜索elasticsearch java API ------与MongoDB同步数据

 elasticsearch提供river这个模块来读取数据源中的数据到es中,es官方有提供couchDB的同步插件,因为项目用到的是mongodb,所以在找mongodb方面的同步插件,在git上找到了elasticsearch-river-mongodb。        这个插件最初是由aparo写的,最开始的功能就是读取mongodb里面的表,记录最后一条数据的id,根据时间间隔不断访 ...
wbj0110 评论(0) 有899人浏览 2013-10-17 21:19

A Whole New Code Search

Finding great code on GitHub just got a whole lot easier. Today we're releasing several big improvements to code search. New Technology First, we are unveiling our new search infrastructure that wi ...
wbj0110 评论(0) 有917人浏览 2013-10-12 09:16

分布式搜索elasticsearch单机与服务器环境搭建

先到http://www.elasticsearch.org/download/下载最新版的elasticsearch运行包,本文写时最新的是0.19.1,作者是个很勤快的人,es的更新很频繁,bug修复得很快。下 ...
wbj0110 评论(0) 有903人浏览 2013-09-14 10:50

NUTCH公开课:从搜索引擎到网络爬虫

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?   大数据这个术语最早的引用可追溯到Nutch。 ...
yangshangchuan 评论(3) 有23192人浏览 2013-09-12 17:28

elasticsearch 查询内容精确匹配

在实际应用中,我们需要查询内容要完全匹配其内容。其实很简单。在查询内容前面加上双引号。例如 String q="\""+"俄罗斯空军"+"\"";
awnuxkjy 评论(0) 有2908人浏览 2013-08-18 08:38

elasticsearch更改mapping(不停服务重建索引)

Elasticsearch的mapping一旦创建,只能增加字段,而不能修改已经mapping的字段。但现实往往并非如此啊,有时增加一个字段,就好像打了一个补丁,一个可 ...
donlianli 评论(1) 有26260人浏览 2013-08-15 21:30

elasticsearch游标查询所有数据

在Elasticsearch中找一个复制索引的接口真难。现在官方唯一推荐的方法是使用游标获得被复制索引的所有document,然后使用bulkIndex新建立一个索引。   这个接口也很奇怪,第一次search竟然不返回数据。 import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch. ...
donlianli 评论(1) 有8994人浏览 2013-08-14 20:15

elasticsearch实现联想输入搜索(like操作)

通常,在项目中需要联想输入(即输入关键字,提示相关词条,类似百度google的搜索)的需求,可能大家都是用的数据库的like '%关键字%‘来实现。但是这样实现有几个问题。 第一、这样的搜索无论是oracle还是mysql,都是无法使用索引的。在oracle中可能有全文检索可以使用,但是个人感觉效果不是很好。 第二、输入的关键字有like的通病,就是只有保含关键字的词条才会被命中。如果中间加 ...
donlianli 评论(0) 有14189人浏览 2013-08-10 23:11

elasticsearch 添加字段

Elasticsearch中的mapping一旦创建,就不能再修改。但是添加字段是可以的。其实很简单,只需在原来的mapping上面直接新增加一个field,然后重新创建一下mapping就可以了。   原mapping的定义如下: private static XContentBuilder getMapping() throws Exception{ XContentBuilder ...
donlianli 评论(0) 有7801人浏览 2013-08-10 09:02

ElasticSearch 测试连接工具(TestConnection)

截止到0.90.x的版本,Elasticsearch已经将connectedNodes从api中去掉,具体代替的方法是什么呢?也没有找到相关的说明。 因此决定自己手工写一个工具类。其实,我们只有通过API去执行一个方法,就可以测试连接是否正常。测试的方法选定为获得集群node的信息。测试代码:   import java.util.Map; import org.elasticsearch ...
donlianli 评论(0) 有3977人浏览 2013-08-10 08:50

ElasticSearch入门- 设置分片副本数量及putMapping

在之前的一篇文章中,写到如何创建mapping。里面只是简单的创建了一个mapping。其实,这种比较重要并且一旦建立无法修改的操作还是需要仔细规划的。 今天我介绍设置index的分片数量及副本数量,即创建索引的如何指定分片的个数及副本的个数。分片的个数在创建之后是无法再增加和减少的,除非你另外建一个索引库,而副本是可以在运行的时候,动态增加和减少。因此,在创建索引库时,规划好分片(Shard ...
donlianli 评论(1) 有12901人浏览 2013-08-08 23:05

ElasticSearch入门-Get Mapping

想要在Java API中获得一个mapping 还真困难,以此铭记。 import org.elasticsearch.client.Client; import org.elasticsearch.cluster.ClusterState; import org.elasticsearch.cluster.metadata.IndexMetaData; import org.elasti ...
donlianli 评论(0) 有3699人浏览 2013-08-06 22:39

ElasticSearch入门-结构定义之Mapping

相当于数据库的表结构的定义,elasticsearch的mapping 也很重要。直接关系到性能及搜索结果的准确性。elasticsearch的java api的例子太少,我在这儿就献丑了。 为了说明mapping的定义,我这里定义了一个简单的模型,就ID,type,和catIds 3个属性,重在说明如何使用java api来定义mapping,具体各field应该如何定义,这里不做讨论。 ...
donlianli 评论(2) 有11102人浏览 2013-08-06 22:35

ElasticSearch的python使用--pyes

问题描述:ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。在工作中的后台网站要提供基于ElasticSearch的后台服务,而后台的主要语言工具是python,操作ElasticSearch要用到pyes库,就需要了解里面的函数,英文API不好 ...
薰衣草之子 评论(0) 有8683人浏览 2013-08-06 17:00

Elasticsearch聚合功能Facet

在常规数据库中,我们都知道有一个sql就是group,分组。如果主表只有对应的一个列记录的分组的ID,那么还好统计,比如说每本书book表,有一个分类catId,记录是属于哪一类的书,那么直接按照catId进行分组即可。可是在实际应用种,并非如此简单。一本书往往属于多个分类,比如:某本书既属于科技类书,又属于儿童类书,要求按照这两种条件进行筛选,都能筛选出来,如果要求按照分类进行统计数量,数据库 ...
donlianli 评论(3) 有12475人浏览 2013-07-15 21:44

ElasticSearch入门-搜索如此简单

转载请标明出处:http://donlianli.iteye.com/blog/1904064   搜索引擎我也不是很熟悉,但是数据库还是比较了解。可以把搜索理解为数据库的like功能的替代品。因为like有以下几点不足: 第一、like的效率不行,在使用like时,一般都用不到索引,除非使用前缀匹配,才能用得上索引。但普通的需求并非前缀匹配。 第二、like的不能做到完全的模糊匹配。比 ...
donlianli 评论(4) 有8301人浏览 2013-07-11 22:11

ElasticSearch入门-Bulk,Search操作

转载请标明出处:http://donlianli.iteye.com/blog/1902840   其实在上一篇博客中,只要大家能看懂,就应该能够根据其代码做到举一反三了,依次类推ES的批量操作Bulk,搜索功能Search等,但在这里还是简单讲一下。   批量索引和删除   BulkRequestBuilder bulkRequest = client.prepareBulk(); ...
donlianli 评论(3) 有6804人浏览 2013-07-10 22:46

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics