`

elasticsearch之hadoop插件使用

 
阅读更多

转自:http://bigbo.github.io/pages/2015/02/28/elasticsearch_hadoop/?utm_source=tuicool&utm_medium=referral

 

elastic与Hadoop的连接

几个月前,由于资源有限,而需求无限,不得已想到es与hadoop的连接,本来想的很好,尝试把HDFS作为es的存储后端,把index存入HDFS中,这样就能节省存储空间了.当然官网也有相关使用配置(这里就不介绍了),经过几天的奋斗还是没能实现当初的想法,也幸亏没实现,实现了性能也是一大坑(猜测性能非常差以至于官方的 elasticsearch-hdfs 插件都几年没更新了!).

不过倒是尝试了把HDFS作为后端存储,可以实现备份elasticsearch数据快照到HDFS或者是从HDFS中恢复数据.选择插件 repository-hdfs,其实就是使用了ES的 snapshot/restore 功能.

安装插件

我的es版本为 1.3.9-1,注意: 1.3.0-1.3.7 and 1.4.0-1.4.2 存在Grooy漏洞,所以选择版本的时候注意下,插件选择版本对应为2.0.2,后端Hadoop为2.5.0,安装方式如下:

./bin/plugin -i elasticsearch/elasticsearch-repository-hdfs/2.0.2

当然像我这样没外网的可以选择 插件下载,选择对应的版本,解压拷贝到es的plugin目录.

配置使用

直接用curl法:

curl -XPUT 'http://localhost:9200/_snapshot/backup' -d '{
  "type": "hdfs",
    "settings": {
            "uri": "hdfs://hadoop:8020",
            "path": "/test/es",
            "conf_location": "hdfs-site.xml"
    }
}'

返回 {"acknowledged":true} 表示创建成功.

查看创建的配置:
curl http://localhost:9200/_snapshot/_all

可以看到返回刚才配置信息.

测试备份数据
curl -XPUT "localhost:9200/_snapshot/backup/snapshot_1?wait_for_completion=true"

尝试去看下HDFS上是否有刚才备份的文件,访问 http://hadoop:50070/explorer.html#/test/es 便可以看到相关的快照文件.

测试还原数据

通过快照还原数据,测试前可以把之前测试做过备份的索引进行删除,然后通过如下命令进行数据恢复:

curl -XPOST "localhost:9200/_snapshot/backup/snapshot_1/_restore?wait_for_completion=true"

通过kopf插件进行设置

elasticsearch-kopf,是一个对es集群管理综合插件,无需安装体验地址.

备份恢复快照设置如图:

rsyslog

Comments !

分享到:
评论

相关推荐

    Elasticsearch集成Hadoop最佳实践

    - **Hadoop 到 Elasticsearch 数据流**: 在 Hadoop 端,使用例如 Logstash 或者 Elasticsearch 的 Hadoop 插件(如 Elasticsearch-Hadoop)将 MapReduce 或 Spark 处理后的结果直接写入 Elasticsearch。这通常涉及...

    kettle使用es、大数据插件jar包.rar

    在这个"Kettle使用es、大数据插件jar包.rar"压缩包中,包含的是Kettle针对Elasticsearch(ES)以及大数据处理的相关插件,这些插件使得Kettle能够更好地与大数据环境集成,进行高效的数据操作和分析。 Elastic...

    ranger-2.1.0-elasticsearch-plugin.tar.gz

    《Ranger 2.1.0 Elasticsearch 插件详解》 在大数据安全领域,Apache Ranger 是一款备受瞩目的开源框架,它提供了集中的权限管理和审计功能,为Hadoop生态系统提供了强大的安全支持。针对Elasticsearch这种广泛应用...

    本科毕业设计+python构建基于Hadoop和ElasticSearch的文件管理及检索系统源码.zip

    本科毕业设计+python构建基于Hadoop和ElasticSearch的文件管理及检索系统源码.zip 安装环境 pip3 install -r requirements.txt 修改配置 在 app/init.py 中修改 hdfs 和 elasticsearch 连接 # 连接 hdfs client = ...

    elasticsearch-5.0.1.rar

    10. **插件支持**:Elasticsearch有一个活跃的社区,开发了众多插件来扩展其功能,如Kibana(可视化工具)、Logstash(日志收集和处理)和Beats(轻量级数据发送者)等。 在解压后的“elasticsearch-5.0.1”目录中...

    ElasticSearch分析与实践

    此外,ES-Hadoop允许Elasticsearch和Hadoop之间的无缝集成,这对于大数据分析尤为重要。ES-Beats是数据.shipper的集合,包括Packetbeat用于网络流量分析,Topbeat用于系统监控,Filebeat和Winlogbeat则分别用于文件...

    本科毕业设计+python构建基于Hadoop和ElasticSearch的文件管理及检索系统,含源码+说明文档,大数据学习

    # 使用 elasticsearch es = elasticsearch.Elasticsearch(['192.168.174.10'], http_auth=('user', 'password'), port=9200) es_index = 'test' 在config.py中修改数据库连接, 并在mysql中新建相应的数据库 ...

    hadoop-yarn-server-resourcemanager-2.3.0.zip

    总结这些知识点,我们可以看出Hadoop YARN Server ResourceManager 2.3.0 在大数据处理中扮演的角色,以及Elasticsearch Dataformat 插件如何增强Elasticsearch的数据导出能力。这两个开源项目代表了当前大数据领域...

    elasticsearch-5.5.0.tar.gz

    5. plugins:安装额外插件的地方,Elasticsearch 社区提供了丰富的第三方插件,增强其功能。 在部署和使用 Elasticsearch 5.5.0 时,你需要配置 `elasticsearch.yml` 文件以满足你的环境需求,如设置集群名称、节点...

    ElasticSearch 大数据搜索工具使用

    配置JVM选项,可以在启动Elasticsearch时通过`ES_JAVA_OPTS`环境变量传递,或者在Elasticsearch的配置目录(通常是`config`目录)下创建`jvm.options`文件,添加如下配置: ```bash -Xms<size> # 设置JVM初始堆大小...

    Elasticsearch-HBase-River同步

    接下来,下载Elasticsearch-HBase-River插件,将其解压到ES的plugins目录下。重启ES服务,插件就会自动加载。然后,你需要配置river,定义HBase表与ES索引之间的映射关系,包括表名、列族、列限定符等信息,以及同步...

    ranger-2.0.0-elasticsearch-plugin.tar.gz

    它支持多种数据存储和服务,包括Hadoop、Hive、Kafka、HBase等,并且通过插件机制可以扩展到其他系统,比如Elasticsearch。在本场景中,我们关注的是Ranger与Elasticsearch的集成,其对应的压缩包文件名为"ranger-...

    Springboot1.3.1+elasticsearch1.7.3集群

    8. **安全性**:Elasticsearch的安全性是另一个重要方面,可以通过X-Pack插件或OpenDistro for Elasticsearch来实现身份验证、授权和加密通信,保护数据安全。 9. **监控与日志**:SpringBoot和Elasticsearch都有...

    ElasticSearch-6.5.tar.gz包

    此外,它的插件生态系统丰富,提供了诸如Elasticsearch-Hadoop这样的插件,可以方便地将Elasticsearch与Hadoop生态系统整合,实现大数据分析。 总的来说,Elasticsearch 6.5.4是一个强大且成熟的搜索引擎,适合于...

    粗通ElasticSearch

    他们在开源技术方面有所专注,尤其是Apache Lucene、Solr、ElasticSearch以及Hadoop栈。他们不仅精通Java,而且对任何能够帮助他们更快实现目标的工具和编程语言持开放态度。 书中也提到了一些版权和商标信息,强调...

    SolrCloud和ElasticSearch对比

    - **ElasticSearch** 的使用更加简单,开箱即用,而 **Solr** 需要较多的手动配置和编码工作。 8. **API扩展性**: - 两者都支持通过 API 进行扩展,但 **ElasticSearch** 的易用性更高。 #### 四、亮点与痛点 *...

    第一章 ElasticSearch入门篇.docx

    "ElasticSearch 入门篇" ElasticSearch 是一个基于 Lucene 的搜索服务器,提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口。ElasticSearch 是用 Java 开发的,并作为 Apache 许可条款下的开放...

    第1周 Hadoop生态系统以及版本演化

    - **Kibana**:与Elasticsearch紧密集成,提供了一个易于使用的界面,可以实时地查看和分析日志数据。 #### 日志系统整体架构图示例 [此处可以插入日志系统架构图] #### 爬虫系统 **爬虫系统**用于从互联网上...

    hbase-server-0.98.8-hadoop1.zip

    "elasticsearch-auth.zip"提到的插件是针对Elasticsearch的安全性增强,它提供了身份验证功能,允许系统管理员控制谁可以访问Elasticsearch集群及其数据。这种筛选器确保只有经过身份验证的用户才能执行查询和其他...

Global site tag (gtag.js) - Google Analytics