`

elasticsearch 备份数据到 hdfs

阅读更多

 

 

1.介绍

大多数公司在使用 Elasticsearch 之前,都已经维护有一套 Hadoop 系统。因此,在实时数据慢慢变得冷却,不再被经常使用的时候,一个需求自然而然的就出现了:怎么把 Elasticsearch 索引数据快速转移到 HDFS 上,以解决 Elasticsearch 上的磁盘空间;而在我们需要的时候,又可以较快的从 HDFS 上把索引恢复回来继续使用呢? Elasticsearch 为此提供了 snapshot 接口。通过这个接口,我们可以快速导入导出索引镜像到本地磁盘,网络磁盘,当然也包括 HDFS。

环境

  • hadoop 2.3.1
  • elasticearch 2.2.0

2.安装 repository-hdfs

2.1 下载repository-hdfs插件,通过标准的 elasticsearch plugin 安装命令安装:

$ bin/plugin install elasticsearch/elasticsearch-repository-hdfs/2.2.0

2.2 修改config/elasticsearch.yml配置

# 禁用 jsm
security.manager.enabled: false

2.3 创建仓库

$ curl -XPUT '192.168.204.139:9200/_snapshot/my_backup?pretty' -d 
'{
    "type":"hdfs",
    "settings":{
        "uri":"hdfs://192.168.204.160:9000",
        "path":"/es_backup/rep_1"
    }
}'
  • hdfs_backup仓库的名称
  • uri是hdfs地址
  • path是hdfs文件目录

创建仓库报错:Server IPC version 9 cannot communicate with client version 4 将hadoop下面的jar包,拷贝到plugins/repository-hdfs/internal-libs/目录下

commons-httpclient-3.1.jar
commons-io-2.4.jar
commons-lang-2.6.jar
commons-logging-1.1.3.jar
commons-net-3.1.jar
commons-cli-1.2.jar
guava-11.0.2.jar
hadoop-common-2.3.0.jar
hadoop-auth-2.3.0.jar
hadoop-hdfs-2.3.0.jar
slf4j-api-1.7.5.jar
protobuf-java-2.5.0.jar
htrace-core-3.0.4.jar
分享到:
评论

相关推荐

    数据安全无忧:Elasticsearch 的数据备份和恢复是如何工作的?

    - **快照与恢复**:利用 Elasticsearch 的 Snapshot and Restore API 创建索引快照,并将其保存至远程存储系统(如 Amazon S3、HDFS 等)。 - **数据复制**:通过副本分片机制实现实时数据冗余,提高数据可靠性。 - ...

    Elasticsearch集成Hadoop最佳实践

    3. 数据流处理:ES-Hadoop支持Kafka等流式处理工具的数据流直接导入到Elasticsearch中,这对于需要实时处理和分析的数据流来说非常有用。 4. 扩展性和高可用性:Elasticsearch是一个分布式系统,可以水平扩展,而...

    最新版windows elasticsearch-8.5.3-windows-x86-64.zip

    11. **数据备份与恢复**:使用`elasticdump`或`elasticsearch-repository-hdfs`等工具,可以方便地对Elasticsearch数据进行备份和恢复,保障数据安全。 12. **版本升级**:从旧版本升级到8.5.3时,应遵循官方升级...

    Elasticsearch结合hbase的应用

    Elasticsearch的备份可以通过设置共享目录(如nfs共享或samba共享),添加配置项path.repo,注册备份,并建立快照来备份数据。一旦需要,还可以从备份中恢复数据。 总而言之,Elasticsearch和Hbase的结合可以充分...

    elasticsearch-hadoop-6.8.23.zip

    6. **数据迁移和同步**:Elasticsearch-Hadoop支持将HDFS上的数据批量导入到Elasticsearch,或者将Elasticsearch中的数据导出到HDFS,方便进行数据备份、迁移和同步。 7. **容错性和扩展性**:由于Elasticsearch和...

    elasticsearch6实战教程资料

    5. **Elasticsearch-Hadoop**:集成Hadoop,支持从HDFS、Hive、Pig等导入数据。 ### 六、集群运维 1. **监控**:使用内置的监控工具或Kibana可视化集群状态、节点性能等。 2. **节点角色**:主节点负责集群管理和...

    最新ElasticSearch6实战教程

    - **快照与恢复**:利用Elasticsearch的快照功能定期备份,以便在必要时恢复数据。 - **存储库**:配置存储库,如本地文件系统、Amazon S3或HDFS。 通过学习本教程,你将能够熟练地运用Elasticsearch 6来搭建、管理...

    最新版linux elasticsearch-8.4.2-linux-x86_64.tar.gz

    可以使用 Elasticsearch 的快照和恢复功能,结合存储库如 S3 或 HDFS 进行备份。 总之,Elasticsearch 8.4.2 在 Linux 上的部署和使用涉及分布式架构、RESTful API、数据管理、安全配置、性能优化等多个方面,深入...

    elasticsearch-admin:Elasticsearch的Web管理:集群,节点,索引,分片,索引模板,存储库,快照..

    **存储库(Repositories)** 和 **快照(Snapshots)** 是Elasticsearch的数据备份和恢复机制。存储库定义了快照的保存位置,可以是本地文件系统、S3、HDFS等。通过Elasticsearch-admin,用户可以方便地执行快照操作...

    ELK集群的部署、使用以及备份与版本升级.pdf

    Logstash是一个数据收集引擎,负责从各种数据源接收数据,进行过滤、转换,并将处理后的数据发送到Elasticsearch。Kibana则是一个数据可视化工具,可以对Elasticsearch中的数据进行直观的图形展示。 使用ELK的原因...

    es551+flume1.6

    5. **插件丰富**: 支持各种数据源(如web服务器日志、syslog)和数据接收器(如HDFS、Kafka、Elasticsearch)的插件。 **Elasticsearch与Flume集成** 将Flume与Elasticsearch结合使用,可以高效地实现日志的收集、...

    es实战技术文档

    Elasticsearch(以下简称 ES)是一个分布式搜索引擎,其架构中最核心的概念之一是集群(Cluster)。集群由一个或多个节点组成,每个节点都是运行 ES 的服务器实例。在一个集群中,存在一个主节点(Master Node),它...

    存储数据资料2

    5. 数据备份与恢复:定期备份数据,确保在系统故障或数据丢失时能够快速恢复。 6. 数据安全性:包括加密、访问控制、审计日志等措施,保护数据免受未授权访问或篡改。 7. 数据生命周期管理:根据数据的价值和使用...

    华为数据湖治理中心用户指南.pdf

    资源迁移部分描述了如何将数据从一个地方迁移到另一个地方,这包括数据的备份、恢复以及数据在不同存储介质之间的移动。 8. 数据集成: 数据集成是DGC的重要功能,涉及批量数据迁移。这部分内容涉及批量数据迁移的...

    联动大数据处理架构的选择和演进.pdf

    此外,通过Spark、Mr、Zookeeper、HBase、Streaming、Graphx、Sql、MLlib、Mahout、Pig、Hive、Kafka、Sqoop、Redis、Mysql、ElasticSearch、Presto、Flume等一系列组件,构建了强大的机器学习能力,涵盖了信用评估...

    大数据处理平台构架设计说明书.pdf

    7. 日志管理:利用ELK(Elasticsearch、Logstash、Kibana)堆栈或其他日志管理系统,进行日志收集、存储和分析。 总结,大数据处理平台构架设计是一项复杂的任务,涉及到多个层次和组件的协同工作。本说明书提供了...

    电视用户数据分析.docx

    数据通过FLUME抓取,KAFKA传输到STORM,元数据存储在HDFS中。错误日志则直接存入ES,流水文件通过上传系统导入HDFS。 3. **功能实现**: - **数据采集模块**:数据收集通过AOP方式从C平台接口获取,然后通过FLUME...

Global site tag (gtag.js) - Google Analytics