core/common 基础包,0.20开始叫common。该子项目作为其他子项目的寄出工具包
avro 用于数据序列化,提供丰富的数据类型,快速可压缩的二进制数据格式,存储持久性数据的文件集,远程调用RPC,和简单的动态语言集成功能。其中代码生成器既不要读写文件数据,也不需要使用或者实现RPC协议,它只是一个可选的对静态类型语言的实现。它依赖模式(schema),它的数据读写都是在schema下进行的。这样是为了减少数据写入的开销,提高序列化的熟读和减少大小。也方便动态脚本语言的使用。因为数据连接同模式(schema)都是自描述的。
MapReduce mapreduce是一种编程模型,用于大规模数据集(大于1tb)的并行运算。map(映射)reduce(化简)的概念是从函数式编程语言借鉴而来,它执行时需要先指定一个map函数,输入键值对映射成一个新的键值对。经过一定处理后交给reduce进行化简,reduce再对输入的键值对进行处理,返回最后的键值对。
而新的Map Reduce架构被称为yarn(0.23),记住是架构,不是替代。也就是yarn本身依然是mapreduce设计模型下进行的,但是实现方式,与之前的mapreduce有变化,但是API是一样的。
HDFS是一个分布式文件系统 就有高容错性,可以部署在低廉的设备上,提供高吞吐来访问应用的数据,适合那些有超大数据集的应用程序。通过流的方式访问文件系统。通过块block分割方式,把一个大数据文件,分散到不同的应用磁盘中,每个块大小默认64MB,并且对每个块在不同硬盘进行备份(默认备份3份)。
由于需要实现高吞掉两,因此对于数据访问速度,会失去很多的。
chukwa是开源的数据收集系统。用于监控和分析大型分布系统的数据。chukwa是在hadoop的hdfs和mapreduce之上搭建的。它同时集成了hadoop的可扩展性和健壮性。它通过hdfs来存储数据,通过mapreduce来处理数据。它附带了强大的工具,来显示,监视和分析数据。
hive是最初是facebook设计的,建立在hadoop之上的数据仓库。提供了数据整理,特殊查询和分析,它支持类似于SQL的HIVE QL,hive编译器把HQL编译成了mapreduce任务。
Hbase是一个分布式面向列的数据库(nosql)提供了bigtable的能力。hbase适合存储非结构化的数据。基于列,而不是基于行。一个数据行拥有一个可选的键,和任意数量的列。由于数据是疏松的,所以用户可以给行定义不同的列。
pig是对大型数据集进行分析和评估的平台。它能够经受住高并行化的检验。该特性使得它能处理大型的数据集。底层是一个编译器。再运行的时候产生mapreduce。
- 大小: 28.9 KB
- 大小: 64 KB
分享到:
相关推荐
陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-...
1、Hadoop 是什么 Hadoop是现阶段数据开发的基础,Hadoop通常是指一个更广泛的概念—-Hadoop生态圈(基于或关于Hadoop的...2、Hadoop 组成结构 HDFS :分布式文件储存系统 Yarn :资源管理和调度系统 MapReduce :分
本文将深入探讨Hadoop API以及Hadoop的结构与设计,旨在为学习者提供全面的理解。 首先,我们来看Hadoop API。Hadoop API是开发者用于与Hadoop系统交互的一系列接口,它允许程序在分布式环境中读写数据,执行计算...
hadoop知识结构图 hadoop知识结构图 hadoop知识结构图 hadoop知识结构图
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
本节主要介绍了在CentOS 6虚拟机环境中准备Hadoop环境的步骤,包括虚拟机环境准备、Linux安装Hadoop、Hadoop目录结构等内容。 1. 虚拟机环境准备 在CentOS 6虚拟机环境中,需要首先克隆虚拟机,并将其设置为静态IP...
集成Hadoop插件后,Eclipse的"资源管理器"视图会显示HDFS的文件系统结构,使得在IDE内部操作Hadoop就像操作本地文件系统一样简单。 为了在Windows上成功配置Hadoop开发环境,你需要: 1. 下载并解压Hadoop二进制...
3. **HDFS初始化**:使用`winutils.exe`初始化HDFS文件系统,创建NameNode和DataNode的数据目录,这通常涉及到创建一些特定的目录结构并设置相应的权限。 4. **配置文件**:修改`conf/core-site.xml`和`conf/hdfs-...
5. **Hive**:Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL(HQL,Hive SQL)接口进行查询,简化了对大数据的分析工作。Hive操作包括创建表、加载数据、执行查询等,...
而Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,因此在Windows环境下,通过这些工具可以方便地进行Hive的开发和调试工作。 标签“spark hadoop”暗示了这些文件...
(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 (2)DataNode(dn):在本地文件系统存储文件块数据,以及...
注意不要嵌套文件夹结构,即解压后的路径应该是直接包含`bin`、`etc`等文件夹,而非再套一层`hadoop`文件夹。 #### 四、安装Hadoop Eclipse插件 1. **插件文件放置**:将Hadoop Eclipse插件文件`hadoop-eclipse-...
3. **格式化NameNode**:首次启动Hadoop前,需要对NameNode进行格式化,初始化HDFS的数据结构。 4. **启动Hadoop服务**:依次启动DataNode、NameNode、Secondary NameNode和ResourceManager等服务。 5. **测试Hadoop...
06-hbase表结构.avi 07-hbase集群架构及表存储机制.avi 08-hbase-shell.avi 09-hbase的java api.avi 第七天 storm+kafka 006-kafka整合storm.avi 01-storm基本概念.avi 02-storm编程规范及demo编写.avi 03...
下载后,使用`tar -zxvf hadoop-3.1.3.tar.gz`命令进行解压,解压后的目录结构包含Hadoop的各种组件和配置文件。 三、配置Hadoop环境 为了方便使用Hadoop,我们需要设置环境变量。在用户的.bashrc文件中添加以下...
这个库文件包含了运行Hadoop所必需的函数和数据结构,使得Hadoop的Java代码能够与Windows系统进行交互。hadoop.dll是Hadoop在Windows平台上的关键依赖,确保了各种Hadoop进程和服务的正常启动和运行。 当你下载并...
HBase是一个非关系型数据库(NoSQL),适合存储非结构化或半结构化数据。其特点是基于列族(Column Family)的存储模式,与传统的行式数据库不同,更便于处理大数据。HBase提供了Web界面(通过内置Jetty服务器)来...
压缩包内的文件结构通常如下: - `bin`: 包含可执行脚本,用于启动和管理Hadoop服务。 - `conf`: 默认配置文件,可以在这里配置Hadoop集群的设置。 - `lib`: Hadoop运行所需的库文件。 - `sbin`: 系统级脚本,用于...
Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,...通过对Hadoop源码的分析,开发者可以深入理解分布式系统的内部结构,掌握数据处理和存储的高级技巧,以及学习如何构建一个可靠、可扩展的分布式计算平台。