上篇文章,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。
我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储系统,大多数我们都是用MapReduce来分析数据,唯一的不足之处在于速度,为了解决这种问题所以才有了Hbase,Spark,Kylin,Presto,Imapla等等许多框架。而我们的elasticsearch却恰恰相反,尤其是其定位高性能的搜索引擎,处理多维数据的检索分析非常高效,此外ES也是一个分布式的,高可靠的,可扩展的搜索框架,这些特点也决定了其处理海量数据的效率也是非常出色的。但es和hadoop属于两个不同的框架,如果想互相共享数据来处理,就需要自己来写程序把各自的数据导入需要的一方,过程非常繁琐,并且需要关注各自框架的版本,从而容易出现问题。
ES-Hadoop的出现则解决了这个问题,我们可以把它看做是ES和Hadoop大数据生态圈之间的数据桥梁,通过它,我们可以快速的分析Hadoop里面的海量数据。
前面说了Hadoop的MapReduce定位是一个离线的批处理计算框架,而现在越来越多的服务,都要求是实时或者近实时的交互式分析,通过ES-Hadoop我们可以轻松的将Hadoop集群上面的数据导入到ES,从而通过使用ES来获得高性能,低延迟,并支持各种聚合,空间检索以及产品推荐的一些特性。最后还可以使用Kibana提供的可视化的数据分析一条龙服务,非常棒的组合。
整个数据流转图如下:
ES-Hadoop无缝打通了ES和Hadoop两个非常优秀的框架,我们既可以把HDFS的数据导入到ES里面做分析,也可以将es数据导出到HDFS上做备份,归档,其中值得一提的是ES-Hadoop全面的支持了Spark框架,其中包括Spark,Spark Streaming,Spark SQL,此外也支持Hive,Pig,Storm,Cascading,当然还有标准的MapReduce,无论用那一个框架集成ES,都是非常简洁的。
最后ES-Hadoop对各种版本的Hadoop都支持,这里面包含社区版本的Apache Hadoop,Cloudrea的CDH,MapR以及Hortonworks的HDP所以无论我们使用哪个版本的Hadoop都可以非常easy的与ES集成,从而让ES的强大性能帮助我们快速分析海量数据。
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。
- 大小: 27.5 KB
分享到:
相关推荐
《Ranger 2.1.0 Elasticsearch 插件详解》 在大数据安全领域,Apache Ranger 是一款备受瞩目的开源框架,它提供了集中的权限管理和审计功能,为Hadoop生态系统提供了强大的安全支持。针对Elasticsearch这种广泛应用...
- **Hadoop 到 Elasticsearch 数据流**: 在 Hadoop 端,使用例如 Logstash 或者 Elasticsearch 的 Hadoop 插件(如 Elasticsearch-Hadoop)将 MapReduce 或 Spark 处理后的结果直接写入 Elasticsearch。这通常涉及...
10. **插件支持**:Elasticsearch有一个活跃的社区,开发了众多插件来扩展其功能,如Kibana(可视化工具)、Logstash(日志收集和处理)和Beats(轻量级数据发送者)等。 在解压后的“elasticsearch-5.0.1”目录中...
Titan 是一个在服务器集群搭建的分布式的图形数据库,特别为存储和处理大规模图形而优化。...插件式索引架构可以整合 ElasticSearch 和Lucene技术。内置实现 Blueprints graph API,支持 TinkerPop所有的技术。
接下来,下载Elasticsearch-HBase-River插件,将其解压到ES的plugins目录下。重启ES服务,插件就会自动加载。然后,你需要配置river,定义HBase表与ES索引之间的映射关系,包括表名、列族、列限定符等信息,以及同步...
"elasticsearch-auth.zip"提到的插件是针对Elasticsearch的安全性增强,它提供了身份验证功能,允许系统管理员控制谁可以访问Elasticsearch集群及其数据。这种筛选器确保只有经过身份验证的用户才能执行查询和其他...
它支持多种数据存储和服务,包括Hadoop、Hive、Kafka、HBase等,并且通过插件机制可以扩展到其他系统,比如Elasticsearch。在本场景中,我们关注的是Ranger与Elasticsearch的集成,其对应的压缩包文件名为"ranger-...
Elasticsearch 作为数据的源或接收器。 :将 Wukong 和其他 wu-tools 编排在一起,以支持在 Infochimps 平台上运行的应用程序。 安装和设置 Wukong-Hadoop 可以作为 RubyGem 安装: $ sudo gem install wukong-...
此外,它的插件生态系统丰富,提供了诸如Elasticsearch-Hadoop这样的插件,可以方便地将Elasticsearch与Hadoop生态系统整合,实现大数据分析。 总的来说,Elasticsearch 6.5.4是一个强大且成熟的搜索引擎,适合于...
5. plugins:安装额外插件的地方,Elasticsearch 社区提供了丰富的第三方插件,增强其功能。 在部署和使用 Elasticsearch 5.5.0 时,你需要配置 `elasticsearch.yml` 文件以满足你的环境需求,如设置集群名称、节点...
Titan 是一个在服务器集群搭建的分布式的图形数据库,特别为存储和处理大规模图形而优化。...插件式索引架构可以整合 ElasticSearch 和Lucene技术。内置实现 Blueprints graph API,支持 TinkerPop所有的技术。
总结这些知识点,我们可以看出Hadoop YARN Server ResourceManager 2.3.0 在大数据处理中扮演的角色,以及Elasticsearch Dataformat 插件如何增强Elasticsearch的数据导出能力。这两个开源项目代表了当前大数据领域...
标题中的"elasticsearch-cloud-aws-0.18.5.zip"表明这是一个关于Elasticsearch在AWS(Amazon Web Services)云环境中的扩展插件。Elasticsearch是一款强大的、开源的全文搜索引擎,它允许用户进行实时的数据搜索和...
YARN上用于Elasticsearch的Ambari插件: ://www.elastic.co/guide/en/elasticsearch/hadoop/current/es-yarn.html插件支持PivotalHD30,Hortonworks HDP2.2和HDP2.3 Hadoop发行版。 支撑位在Ambari 1.7到2.1之间。 ...
7. 集成能力:Elasticsearch能够与Kafka、Hadoop等大数据生态工具无缝集成,实现数据流的高效传输和处理。7.9.0版本可能提升了与其他系统的兼容性,简化了集成流程。 8. 可视化:Kibana是Elasticsearch的可视化界面...
在这个"Kettle使用es、大数据插件jar包.rar"压缩包中,包含的是Kettle针对Elasticsearch(ES)以及大数据处理的相关插件,这些插件使得Kettle能够更好地与大数据环境集成,进行高效的数据操作和分析。 Elastic...
8. **安全性**:Elasticsearch的安全性是另一个重要方面,可以通过X-Pack插件或OpenDistro for Elasticsearch来实现身份验证、授权和加密通信,保护数据安全。 9. **监控与日志**:SpringBoot和Elasticsearch都有...
此外,ES-Hadoop允许Elasticsearch和Hadoop之间的无缝集成,这对于大数据分析尤为重要。ES-Beats是数据.shipper的集合,包括Packetbeat用于网络流量分析,Topbeat用于系统监控,Filebeat和Winlogbeat则分别用于文件...
本科毕业设计+python构建基于Hadoop和ElasticSearch的文件管理及检索系统源码.zip 安装环境 pip3 install -r requirements.txt 修改配置 在 app/init.py 中修改 hdfs 和 elasticsearch 连接 # 连接 hdfs client = ...