引用
一:涉及到的东西
HDFS:file system用于管理文件,相当于资源管理系统
Map reduce :Engine+Logic 实现大量的计算
Nuts:框架
非结构化数据:如日志数据(flume,scribe)
结构化数据:有表结构等,如oracle和mysql。数据可以从HDFS中互相转换到关系型数据库中,采用的软件有Sqoop
OLTP:在线事务处理应用(HBASE),要求延时比较少。1024G=1p
Eclipse:管理。Ganglia监控集群,带宽等
JAQL高层次接口,采用sql语言
Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Oozie:workflow
Mahout:more high interfaces,它封装了算法
二:Hadoop:适合大数据的分布式的存储和计算平台
1.HDFS:
主从结构:主节点:只有一个:namenode
从节点:有很多个:datanodes
namenode负责:
接收用户操作请求
维护文件系统的目录结构
管理文件与block之间的关系,block与datanode之间的关系
datanode负责:
存储文件
文件被分成block(默认大小为64M)存储在磁盘上
为保证数据安全,文件会有多个副本
2.MapReduce:
主从结构:
主节点:只有一个,JobTracker
从节点:有很多个:TaskTrackers
JobTracker负责:
接受客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTrackers的执行情况
TaskTrackers负责:
执行JobTracker分配的计算任务
3.Hadoop的特点:
扩容能力:能可靠的存储和处理千兆字节(PB)数据
成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达到千个节点。
高效率:通过分发数据,hadoop可以在数据所在的节点上并行的处理它们,这使得处理非常的快速。
可靠性:hadoop能自动的维护数据的多份副本,并且在任务失败后能自动的重新部署(redeploy)计算任务。
分享到:
相关推荐
【Hadoop相关知识习题详解】 1. HBase源自Google的BigTable博文,它是一个分布式、面向列的NoSQL数据库,特别适用于大数据处理。 2. HBase的特性包括:高可靠性、高性能、面向列和可伸缩性。它是基于HDFS存储底层...
Hadoop 是一个开源的分布式计算框架,主要用于处理和存储海量数据。...理解并掌握Hadoop的相关知识,如Partitioner、CacheArchive、HDFS的工作原理以及YARN的角色,对于构建和优化大数据处理系统至关重要。
大数据hadoop基础知识扫盲,初步了解什么是hadoop
这个“hadoop知识结构图”应该是对整个Hadoop生态系统的一个全面概览,包括其主要组件、工作原理以及与其他技术的关联。 Hadoop由Apache软件基金会开发,它的核心组件主要包括HDFS(Hadoop Distributed File System...
大数据入门必备,主要是hadoop的一些常规配置介绍,功能实现等!
【Hadoop基础知识】 Hadoop是大数据处理领域的重要框架,它主要由两个核心组件构成:Hadoop Distributed File System(HDFS)和MapReduce。HDFS是一个分布式文件系统,它设计为在低成本硬件上运行,具有高容错性,...
*****1.如何实现wordcount ***2.hadoop1.0和hadoop2.0的区别 ***3.搭建hadoop伪分布式/完全分布式集群的步骤
全书分为基础篇、应用篇和总结篇三个部分,全面涵盖了Hadoop相关知识点。 在基础篇中,读者将首先接触到Hadoop的历史背景、发展以及其分布式存储和计算的原理。Hadoop是Apache软件基金会开发的一个开源分布式计算...
Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf
hadoop基本知识总结
以下是基于这些书籍的Hadoop相关知识点的详尽解析: 1. **Hadoop概述**:Hadoop是由Apache基金会开发的一个开源项目,基于Google的MapReduce编程模型和GFS分布式文件系统。它的设计目标是高容错性、可扩展性和高效...
在第1章对Hadooop作了少量介绍,主要从宏观上了解Hadoop相关知识和体系结构。为了进一步实际操作和使用Hadoop,首先我们需要进行安装与配置。 Hadoop的安装方式分为三种:单机模式、伪分布式、完全分布式。它们是根据...
描述中的内容重复了标题,没有提供额外的信息,所以我们将主要依据标签和压缩包内的文件名来探讨Hadoop的相关知识点。 标签“hadoop”再次强调了主题,让我们知道接下来要讨论的是Hadoop的各个方面。 压缩包内的...
本文主要针对Hadoop相关知识进行总结,涵盖了大数据的基本特征、Hadoop组件、Hadoop集群部署、环境配置、HDFS操作、MapReduce工作流程、Zookeeper、YARN、数据仓库、Hive、Flume、Azkaban以及Sqoop等多个知识点。...
Hadoop实用知识库分享知识分享 Hadoop是一个基于分布式处理的大数据处理框架,由Apache软件基金会开发和维护。它提供了一种可靠、可扩展、可维护的方式来存储和处理大规模数据。Hadoop的核心组件包括Hadoop ...
以下是基于这些章节的源代码所涵盖的Hadoop相关知识点的详细解析: 1. **Chap 1 - Hadoop基础知识**:这部分可能涉及Hadoop生态系统的基本组件,如HDFS(Hadoop分布式文件系统)和MapReduce。HDFS是Hadoop的核心,...
根据提供的文件信息,我们可以生成以下Hadoop相关知识点: Hadoop是一种开源框架,用于存储和处理大数据,其核心特性是容错性以及能够在商用硬件上分布式存储和处理大型数据集。Hadoop允许用户运行复杂的数据分析,...