1.介绍
大多数公司在使用 Elasticsearch 之前,都已经维护有一套 Hadoop 系统。因此,在实时数据慢慢变得冷却,不再被经常使用的时候,一个需求自然而然的就出现了:怎么把 Elasticsearch 索引数据快速转移到 HDFS 上,以解决 Elasticsearch 上的磁盘空间;而在我们需要的时候,又可以较快的从 HDFS 上把索引恢复回来继续使用呢? Elasticsearch 为此提供了 snapshot 接口。通过这个接口,我们可以快速导入导出索引镜像到本地磁盘,网络磁盘,当然也包括 HDFS。
环境
- hadoop 2.3.1
- elasticearch 2.2.0
2.安装 repository-hdfs
2.1 下载repository-hdfs插件,通过标准的 elasticsearch plugin 安装命令安装:
$ bin/plugin install elasticsearch/elasticsearch-repository-hdfs/2.2.0
2.2 修改config/elasticsearch.yml配置
# 禁用 jsm
security.manager.enabled: false
2.3 创建仓库
$ curl -XPUT '192.168.204.139:9200/_snapshot/my_backup?pretty' -d
'{
"type":"hdfs",
"settings":{
"uri":"hdfs://192.168.204.160:9000",
"path":"/es_backup/rep_1"
}
}'
- hdfs_backup仓库的名称
- uri是hdfs地址
- path是hdfs文件目录
创建仓库报错:Server IPC version 9 cannot communicate with client version 4 将hadoop下面的jar包,拷贝到plugins/repository-hdfs/internal-libs/目录下
commons-httpclient-3.1.jar
commons-io-2.4.jar
commons-lang-2.6.jar
commons-logging-1.1.3.jar
commons-net-3.1.jar
commons-cli-1.2.jar
guava-11.0.2.jar
hadoop-common-2.3.0.jar
hadoop-auth-2.3.0.jar
hadoop-hdfs-2.3.0.jar
slf4j-api-1.7.5.jar
protobuf-java-2.5.0.jar
htrace-core-3.0.4.jar
相关推荐
- **快照与恢复**:利用 Elasticsearch 的 Snapshot and Restore API 创建索引快照,并将其保存至远程存储系统(如 Amazon S3、HDFS 等)。 - **数据复制**:通过副本分片机制实现实时数据冗余,提高数据可靠性。 - ...
3. 数据流处理:ES-Hadoop支持Kafka等流式处理工具的数据流直接导入到Elasticsearch中,这对于需要实时处理和分析的数据流来说非常有用。 4. 扩展性和高可用性:Elasticsearch是一个分布式系统,可以水平扩展,而...
11. **数据备份与恢复**:使用`elasticdump`或`elasticsearch-repository-hdfs`等工具,可以方便地对Elasticsearch数据进行备份和恢复,保障数据安全。 12. **版本升级**:从旧版本升级到8.5.3时,应遵循官方升级...
Elasticsearch的备份可以通过设置共享目录(如nfs共享或samba共享),添加配置项path.repo,注册备份,并建立快照来备份数据。一旦需要,还可以从备份中恢复数据。 总而言之,Elasticsearch和Hbase的结合可以充分...
6. **数据迁移和同步**:Elasticsearch-Hadoop支持将HDFS上的数据批量导入到Elasticsearch,或者将Elasticsearch中的数据导出到HDFS,方便进行数据备份、迁移和同步。 7. **容错性和扩展性**:由于Elasticsearch和...
5. **Elasticsearch-Hadoop**:集成Hadoop,支持从HDFS、Hive、Pig等导入数据。 ### 六、集群运维 1. **监控**:使用内置的监控工具或Kibana可视化集群状态、节点性能等。 2. **节点角色**:主节点负责集群管理和...
- **快照与恢复**:利用Elasticsearch的快照功能定期备份,以便在必要时恢复数据。 - **存储库**:配置存储库,如本地文件系统、Amazon S3或HDFS。 通过学习本教程,你将能够熟练地运用Elasticsearch 6来搭建、管理...
可以使用 Elasticsearch 的快照和恢复功能,结合存储库如 S3 或 HDFS 进行备份。 总之,Elasticsearch 8.4.2 在 Linux 上的部署和使用涉及分布式架构、RESTful API、数据管理、安全配置、性能优化等多个方面,深入...
**存储库(Repositories)** 和 **快照(Snapshots)** 是Elasticsearch的数据备份和恢复机制。存储库定义了快照的保存位置,可以是本地文件系统、S3、HDFS等。通过Elasticsearch-admin,用户可以方便地执行快照操作...
Logstash是一个数据收集引擎,负责从各种数据源接收数据,进行过滤、转换,并将处理后的数据发送到Elasticsearch。Kibana则是一个数据可视化工具,可以对Elasticsearch中的数据进行直观的图形展示。 使用ELK的原因...
5. **插件丰富**: 支持各种数据源(如web服务器日志、syslog)和数据接收器(如HDFS、Kafka、Elasticsearch)的插件。 **Elasticsearch与Flume集成** 将Flume与Elasticsearch结合使用,可以高效地实现日志的收集、...
Elasticsearch(以下简称 ES)是一个分布式搜索引擎,其架构中最核心的概念之一是集群(Cluster)。集群由一个或多个节点组成,每个节点都是运行 ES 的服务器实例。在一个集群中,存在一个主节点(Master Node),它...
5. 数据备份与恢复:定期备份数据,确保在系统故障或数据丢失时能够快速恢复。 6. 数据安全性:包括加密、访问控制、审计日志等措施,保护数据免受未授权访问或篡改。 7. 数据生命周期管理:根据数据的价值和使用...
资源迁移部分描述了如何将数据从一个地方迁移到另一个地方,这包括数据的备份、恢复以及数据在不同存储介质之间的移动。 8. 数据集成: 数据集成是DGC的重要功能,涉及批量数据迁移。这部分内容涉及批量数据迁移的...
此外,通过Spark、Mr、Zookeeper、HBase、Streaming、Graphx、Sql、MLlib、Mahout、Pig、Hive、Kafka、Sqoop、Redis、Mysql、ElasticSearch、Presto、Flume等一系列组件,构建了强大的机器学习能力,涵盖了信用评估...
7. 日志管理:利用ELK(Elasticsearch、Logstash、Kibana)堆栈或其他日志管理系统,进行日志收集、存储和分析。 总结,大数据处理平台构架设计是一项复杂的任务,涉及到多个层次和组件的协同工作。本说明书提供了...
数据通过FLUME抓取,KAFKA传输到STORM,元数据存储在HDFS中。错误日志则直接存入ES,流水文件通过上传系统导入HDFS。 3. **功能实现**: - **数据采集模块**:数据收集通过AOP方式从C平台接口获取,然后通过FLUME...