Hadoop
的基本结构介绍(原创)
概述:
这是我看了
Hadoop core 0.17.0
文档只有做的一些总结,有不对的地方请给我指出。
什么是
Hadoop?
Hadoop
是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。
Hadoop
为应用程序透明的提供了一组稳定
/
可靠的接口和数据运动。在
Hadoop
中实现了
Google
的
MapReduce
算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,
Hadoop
还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了
map/reduce
和分布式文件系统使得
Hadoop
框架具有高容错性,它会自动处理失败节点。
Hadoop
的项目组成
Hadoop core
主要的子项目,提供分布是文件系统(
HDFS
)和支持
MapReduce
计算。
HBase
建立在
Hadoop Core
基础上的分布是数据库。
我只研究
Hadoop core
的功能和实现,不涉及
HBase
MapReduce
介绍
这是
Hadoop
的核心。
思想
1. 就是做一个计算,如果计算过程中如果数据传输消耗的资源大于计算消耗的资源,考虑在计算过程中,将算法(程序),移动到数据存放的服务器中,再进行计算。
2.
在做一个巨型计算时,利用多台(例如
2000
)台服务器的
cpu
和内存同时计算。
算法描述
第一种方式描述
将计算要用的数据切分,放在各个服务器上,然后将计算程序分发到各个服务器,计算出各个部分的结果。最后将各个计算结果合并。
第二种方式描述
另外一种描述为,
MapReduce
的名字源于这个模型中的两项核心操作:
Map
和
Reduce
。也许熟悉
Functional Programming
(函数式编程)的人见到这两个词会倍感亲切。简单的说来,
Map
是把一组数据一对一的映射为另外的一组数据,其映射的规则由一个函数来指定,比如对
[1, 2, 3, 4]
进行乘
2
的映射就变成了
[2, 4, 6, 8]
。
Reduce
是对一组数据进行归约,这个归约的规则由一个函数指定,比如对
[1, 2, 3, 4]
进行求和的归约得到结果是
10
,而对它进行求积的归约结果是
24
我觉得意思是差不多的。
总的来说算法必须可以切分,包含小列步骤。
切分、分别计算、合并。
最典型的是大规模日志计算。
Hadoop
文件系统(
HDFS
)
因为
MapReduce
算法需要切分数据,
HDFS
设计为将大文件分别部署到各个服务器。主要有下列特性:
1.
冗余存储,默认任何文件保留
3
个备份(考虑到部署在不同机架的情况),保证了服务器失效时,不丢失数据。即使一个机架全部断电,或者烧毁,数据依然健壮存在。
2.
大文件分块分散在各个服务器上存储。
分享到:
相关推荐
在Spark方面,介绍了基于YARN和Mesos的安装方法,以及Hadoop与Spark的区别。CDH和TDH发行版本的安装是基于不同操作系统(如Centos和Ubuntu)的实践。 数据采集与爬虫章节讨论了如何从各种数据源收集数据,这对于...
Hadoop基本概念包括HDFS(Hadoop Distributed File System)和MapReduce,前者是Hadoop的核心数据存储系统,后者是一种并行计算模型,用于处理和生成大规模数据集。Hadoop的架构由NameNode、DataNode、JobTracker和...
【基于Hadoop的海量图像检索】是一篇深入探讨Hadoop在大数据处理和分析领域的应用的原创学士学位毕业论文,适合计算机科学与技术、软件工程等专业的学生阅读。该论文全面解析了Hadoop架构,包括其核心组件、工作原理...
【基于Hadoop技术的计算机专业画像平台的设计与研究】 ...通过本文的研究,读者不仅能掌握Hadoop的基本概念和工作流程,还能了解到如何将其应用于具体场景,解决实际问题,从而为计算机专业画像提供有力的技术支持。
Euphoria教程会介绍其基本语法、数据类型、控制结构以及内存管理。 通过这些教程,无论是数据分析师、程序员还是Web开发者,都能提升自己的技能,掌握处理大数据、可视化、后端开发、前端设计和版本控制等多个方面...
### Hadoop大数据概述 #### 1. 大数据时代背景 - **1.1.1 三次信息化浪潮** - 第一次信息化浪潮: 计算机的发明与普及,标志着电子化时代的开始。 - 第二次信息化浪潮: 互联网的出现和发展,极大地促进了信息交流...
HBase,虽然不是谷歌的原创,但它是基于Hadoop生态系统、模仿Bigtable设计的开源NoSQL数据库。HBase提供了一个分布式、版本化的键值存储系统,能够在HDFS之上提供实时的数据访问。它支持水平扩展,能够处理PB级别的...
【原创学士学位毕业论文,未入库可过查重】资源描述:《万字原创,论文题目是大数据+安全类的学位毕业论文,适合本科专科毕业生》是一份以大数据和安全为主题的原创学位毕业论文,未入库可过查重。论文内容概要包括...
这款HDFS浏览器是原创作品,基于Java语言开发,因此,用户需要确保电脑上安装了JDK1.7或更高版本才能运行。Java的跨平台特性使得这个工具能够在不同的操作系统环境下运行,提供了广泛的应用可能性。同时,Hadoop在...
2. 数据产生方式:数据产生方式经历了三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。 3. 大数据的四个基本特征:大数据的四个基本特征是数据量大、数据类型繁多、处理速度快和价值密度低。 4. ...
### Apache Pig的基础概念及用法总结 #### 一、引言 Apache Pig是一种高级的数据流语言,用于在Hadoop平台...通过本文的介绍,希望读者能够对Pig的基本原理和操作有更深的理解,为今后的数据分析工作打下坚实的基础。
4. Hadoop项目结构: - HDFS:分布式文件系统,存储数据。 - MapReduce:并行计算框架,处理数据。 - 其他子项目如Hive、HBase、ZooKeeper等提供了数据分析、数据库管理和集群协调等功能。 总结,大数据技术原理...
一、搜索引擎的基本原理 1. **爬虫技术**:搜索引擎首先依赖于网络爬虫,它们自动遍历互联网上的网页,抓取内容并建立索引。爬虫通过跟踪网页间的链接进行深度或广度优先的爬取。 2. **网页预处理**:抓取的网页会...
第二章主要讨论Hadoop及其相关技术,包括其与Google的MapReduce、GFS的关系,Hadoop的特性、应用以及项目结构。Hadoop是一个开源框架,主要用于处理和存储大数据,其核心包括HDFS和MapReduce,广泛应用于日志处理、...
Hadoop项目结构包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)以及其他辅助组件,如Zookeeper(集群协调)、Hive(数据仓库工具)和HBase(分布式数据库)等,它们共同构成了大数据处理的生态系统。...
大数据技术原理与应用 大数据技术原理与应用是指通过大数据技术收集、存储、处理和分析海量数据,获取有价值的...Hadoop 的项目结构包括 Pig、Chukwa、Hive、HBase、MapReduce、HDFS、Zookeeper、Common、Avro 等。
大数据技术知识点概要涵盖了大数据的产生背景、特征、价值意义、分布式文件系统HDFS、MapReduce模型、分布式数据库HBase、Spark核心编程以及流计算框架Storm等关键技术的详细介绍。下面将依据各章节内容展开详细讲解...
### 大数据基础期末复习...以上内容覆盖了大数据基础知识的关键要点,包括大数据的基本特征、发展阶段、Hadoop的核心技术和生态系统等内容。希望这些总结能帮助学生更好地理解和掌握相关知识点,在考试中取得好成绩。
而k-friend layout算法则是gbbd的原创算法,主要针对社交网络中的“朋友”关系进行布局优化,有助于揭示用户之间的社交结构和联系强度。 gbbd不仅仅提供了强大的布局算法,还包含丰富的统计分析和聚类工具。统计...
1. **Hive基础知识**:理解Hive的基本概念,包括其作为数据仓库工具的角色,如何通过HQL进行数据查询和处理,以及Hive与Hadoop生态系统的关系。 2. **Hive数据模型**:学习Hive的数据模型,包括表、分区、桶等概念...