全文连接
http://click.aliyun.com/m/22902/
0?wx_fmt=jpeg
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出。
Amazon Elastic Map Reduce(EMR):托管的解决方案,运行在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理,EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作,会有较高的延时。
Hadoop 还包含了一系列技术的扩展系统,这些技术主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。
Pig:分析大数据集的一个平台,该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。
Hive:用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析。
Hbase:一种分布的、可伸缩的、大数据储存库,支持随机、实时读/写访问。
Sqoop:为高效传输批量数据而设计的一种工具,其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传输。
Flume:一种分布式的、可靠的、可用的服务,其用于高效地搜集、汇总、移动大量日志数据。
ZooKeeper:一种集中服务,其用于维护配置信息,命名,提供分布式同步,以及提供分组服务。
Cloudera:最成型的Hadoop发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。开发并贡献了可实时处理大数据的Impala项目。
Hortonworks:使用了100%开源Apache Hadoop提供商。开发了很多增强特性并提交至核心主干,这使得Hadoop能够在包括Windows Server和Azure在内平台上本地运行。
MapR:获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目,是Google的Dremel的开源实现,目的是执行类似SQL的查询以提供实时处理。
全文连接
http://click.aliyun.com/m/22902/
分享到:
相关推荐
04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构...
【标题】:“后Hadoop时代的大数据架构.pdf” 【概要】:在“后Hadoop时代”,大数据架构经历了显著的变化和发展。Hadoop作为开源的数据分析平台,为处理大规模非结构化数据提供了可靠的存储和处理解决方案,包括...
【后Hadoop时代的大数据架构】是指随着技术发展,大数据处理不再仅仅依赖于Hadoop单一框架,而是出现了更多元化的选择。Hadoop自2000年代初诞生以来,已经经历了多个版本的迭代,从最初的0.x发展到2.6版本,其核心...
随着时代的发展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop作为处理大数据的分布式存储和计算框架,...
Hadoop是一个由Apache基金...综上所述,Hadoop及其关键技术在网络安全实体识别领域的应用,不仅提高了数据处理的效率和规模,而且增强了网络数据的安全性和可靠性,对于推动大数据时代网络安全技术的发展具有重要意义。
资源名称:Hadoop安全:大数据平台隐私保护内容简介:《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业...
通过HBTC 2012大会,参与者不仅了解了Hadoop及其在大数据领域的应用,还获取了最新的技术动态和行业洞察,为他们在大数据时代的创新和决策提供了有力支持。文件列表中的"HBTC 2012"可能包含了会议的所有演讲材料,...
3. 教学内容的划分:大数据课程教学内容需要合理设计,以覆盖安装维护、基本操作、应用开发、平台调优、架构设计等不同层面的知识。这样的教学设计有助于学生由浅入深地掌握大数据技术。 4. HDF5知识点:文档中提到...
在当今信息爆炸的时代,大数据已经成为企业决策、科学研究和社会治理的重要工具。而Hadoop作为开源的分布式计算框架,无疑是处理海量数据的首选方案之一。本文将深入探讨Hadoop在大数据实战中的应用,以及如何通过...
在大数据时代,Hadoop作为一种处理大规模数据的分布式存储和计算平台,受到了广泛的欢迎。然而,尽管Hadoop在某些大数据处理方面表现出色,但它并非万能的。本文将探讨Hadoop在处理大数据运算中的局限性,并试图澄清...
《大数据架构:京东之路——从零到一》 在当今数字化时代,大数据已经成为了企业竞争力的关键因素。京东作为中国电商巨头,其大数据架构的发展历程,为业界提供了宝贵的实践经验。本篇将围绕“需求转变设计”、...
在搭建Hadoop大数据计算平台的实践中,涉及到多个关键步骤,包括集群的硬件准备、软件准备、分布式部署方法、集群环境构建和测试验证等。 1. Hadoop简介 Hadoop作为大数据技术栈中不可或缺的部分,它能够有效地对...
综上所述,"基于Hadoop的大数据工程实践多层次教学设计"涵盖了从理论到实践的多个层面,旨在全面培养学生的Hadoop技能,使他们能够适应大数据时代的需求。通过系统的教学和实践,学生不仅可以理解Hadoop的核心技术,...
NoSQL数据库,如Cassandra和Accumulo,是大数据时代另一种重要的技术。它们是非关系型数据库,设计目标是处理大量非结构化和半结构化数据,支持大规模横向扩展,适合处理大数据量的实时查询。NoSQL数据库的灵活性和...
《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。...
总结来说,后Hadoop时代的大数据发展意味着从单一的Hadoop集群转向云计算平台,强调更易用、灵活的服务。企业正在寻求降低运营复杂性,提高数据处理效率的解决方案,而云计算为此提供了理想的环境。然而,Hadoop的...