如果一个文件大于hadoop指定的block大小(默认是128M),那么就会被切割。在集群环境里下,假设一个文件被切割成了4块那么,实际存储的时候不一定是4块,hadoop也有可能将将其中的2块合并,行成3块存储。一般情况下mapreduce 会执行本地的块的块,但也有清苦下本地没有块而去执行其他节点上的数据。主要是为集群中的机器能充分利用。
hdfs
namenode ip:http://localhost:50070
datanode ip:http://localhost:50075
2nd namenode ip:http://localhost:50090
mapreduce(yarn)
resourcemanage ip:http://localhost:8088 负责mapreduce资源调用的
nodenamge ip:http://localhost:8042
nodenamge是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点
包括与ResourceManger保持通信,监督Container的生命周期管理,
监控每个Container的资源使用(内存、CPU等)情况,追踪节点健
康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)
程序本身自己指定文件切割大小:
1.通过字符串的方式明明配置文件,要放在类路径下。
2.通过path方式命名,是通过本地系统方式加载。
3.加载hadoop_common.jar/core-default.xml
4.加载core-site.xml
5.程序里也能修改Configuration conf = job.getConfiguration(); conf.setLong(FileInputFormat.SPLIT_MAXSIZE,1024*15);
haoop可以设置饥切割块的最大值和最小值,所以在设置一个块的时候,超过最大值的时候以最大值为准,但可以小于最小值。
1.NameNode:
相当于一个领导者,负责调度 ,比如你需要存一个1280m的文件
如果按照128m分块 那么namenode就会把这10个块(这里不考虑副本)
分配到集群中的datanode上并记录对于关系 。当你要下载这个文件的时 候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系 一个是块到节点的对应关系。
2. secondarynamenode:
它是namenode的一个快照,会根据configuration中设置的值来
决定多少时间周期性的去cp一下namenode,记录namenode中
的metadata及其它数据
3. NodeManager(NM):
是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点
包括与ResourceManger保持通信,监督Container的生命周期管理,
监控每个Container的资源使用(内存、CPU等)情况,追踪节点健
康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)
4.DataNode:
a.DataNode的需要完成的首要任务是K-V存储
b.完成和namenode 通信 ,这个通过IPC 心跳连接实现。
此外还有和客户端 其它datanode之前的信息交换
c.完成和客户端还有其它节点的大规模通信,这个需要直接
通过socket 协议实现。
5.ResourceManager:
在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)
RM与每个节点的NodeManagers (NMs)和每个应用的ApplicationMasters (AMs)一起工作。
a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。
b.ApplicationMasters负责与ResourceManager协商资源与NodeManagers合作启动容器
上面的一些名词解释
ApplicationMaster
计算应用的资源需求,资源可以是静态或动态计算的,静态的一般是Client申请时就指定了,动态则需要ApplicationMaster根据应用的运行状态来决定 根据数据来申请对应位置的资源(Data Locality) 向ResourceManager申请资源,与NodeManager交互进行程序的运行和监控,监控申请的资源的使用情况,监控作业进度 跟踪任务状态和进度,定时向ResourceManager发送心跳消息,报告资源的使用情况和应用的进度信息 负责本作业内的任务的容错
Container的一些基本概
念和工作流程如下:
(1) Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源)。它跟Linux Container没有任何关系,仅仅是YARN提出的一个概念(从实现上看,可看做一个可序列化/反序列化的Java类)。
(2) Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步分配给ApplicationMaster;
(3) Container的运行是由ApplicationMaster向资源所在的NodeManager发起的,Container运行时需提供内部执行的任务命令(可以使任何命令,比如java、Python、C++进程启动命令均可)以及该命令执行所需的环境变量和外部资源(比如词典文件、可执行文件、jar包等)。
另外,一个应用程序所需的Container分为两大类,如下:
(1) 运行ApplicationMaster的Container:这是由ResourceManager(向内部的资源调度器)申请和启动的,用户提交应用程序时,可指定唯一的ApplicationMaster所需的资源;
(2) 运行各类任务的Container:这是由ApplicationMaster向ResourceManager申请的,并由ApplicationMaster与NodeManager通信以启动之。以上两类Container可能在任意节点上,它们的位置通常而言是随机的,即ApplicationMaster可能与它管理的任务运行在一个节点上。
下面部分内容 http://m.blog.csdn.net/article/details?id=51223335
相关推荐
2. 基于MapReduce的决策树算法实现:在Reducer中,主要实现了决策树算法的计算工作,包括对树的构建、决策树的分裂和叶节点的计算等。Reducer需要对Mapper输出的结果进行处理和计算,以生成最终的决策树模型。 3. ...
**二、Hadoop MapReduce原理** Hadoop是Apache基金会的一个开源项目,提供了一种分布式计算模型——MapReduce。Map阶段将原始数据分片,并对每一片数据应用用户定义的Map函数,生成中间键值对。Reduce阶段则接收...
2. **实际编程经验积累**:通过编写MapReduce程序,积累了实际编程经验,熟悉了Hadoop和MapReduce的API。 3. **分布式计算的认识**:认识到分布式计算的局限性与优势,在实际应用中需要权衡数据规模和计算需求。 4. ...
然而,K-Means本身存在一些局限性,如对初始聚类中心敏感、不适合处理非凸形状的聚类等,这些问题在使用时需要注意。 总的来说,这个斯坦福大学的MapReduce示例为学习如何在分布式环境中应用K-Means算法提供了一个...
2. **距离计算**:在分布式环境中,计算数据点之间的距离可能涉及到跨节点通信,需要设计高效的计算策略,如使用欧氏距离或曼哈顿距离。 3. **迭代控制**:由于MapReduce的并行特性,迭代过程的控制相对复杂,通常...
2. 分布式初始化:如何在分布式环境中合理地初始化质心,避免初始分配不均衡。 3. 广播变量:质心作为中间结果,需要在各个map任务之间共享,这可能涉及Hadoop的广播变量或使用分布式缓存。 4. 并行计算:在map任务...
2. **Mapper 阶段**:对输入矩阵中的每个元素进行处理,生成键值对,键表示参与乘法运算的位置,值包含当前元素的信息。 3. **Shuffle 阶段**:将所有 Mapper 输出按照键进行排序和分组。 4. **Reducer 阶段**:接收...
JobTracker管理整个作业的生命周期,包括初始化、监控和完成,而TaskTracker在工作节点上运行具体的Map和Reduce任务。 为了运行这些MapReduce程序,开发者需要设置Hadoop环境,包括安装Hadoop,配置集群参数,以及...
2. **UnxUtils**:提到的“UnxUtils”是一个包含许多GNU Unix命令行工具的集合,如bash shell、gcc编译器等,它们可以在Windows上运行。在Windows上编写MapReduce程序时,UnxUtils可以帮助你模拟Linux环境,因为...
2. **实现`getSplits()`方法**:此方法用于将输入数据分割成多个split,每个split代表数据的一部分,将在一个单独的Mapper中处理。你需要根据数据的特性来决定如何划分split。例如,如果数据是按块存储的,你可以...
- 将节点颜色初始化为白色,距离初始化为无穷大。 - 遍历状态列表,根据颜色和距离更新节点k2的状态。 - 如果列表中的某个状态的边权重更优,则更新k2的边信息。 - 输出更新后的k2和状态。 通过多轮MapReduce...
对于每一行,它会将单词作为键,出现次数作为值(初始值为1),生成新的键值对。 2. **Shuffle & Sort**:Hadoop自动将具有相同键的记录分组在一起,按键进行排序。 3. **Reducer**:Reducer接收相同键的所有值,将...
Map阶段,每个数据点分配到对应的初始簇中心,并计算其与中心的距离;Reduce阶段,汇总所有数据点的信息,更新每个簇的中心,然后重复此过程直到满足停止条件(如中心点不再显著移动)。 关于Hadoop和Java的使用,...
#### 二、背景与应用场景 **度分布统计**是图论中的一个重要概念,通常应用于社交网络分析、复杂网络研究等领域。它主要用来统计图中各个节点的邻居数量,即每个节点与其他多少个节点相连。在实际应用中,例如分析...
- 这个包中包含了启动MapReduce作业的主要逻辑,通常包括初始化输入输出路径、配置job参数等。 3. **com.ouyang.graph**:这部分负责图的基本建模。 - 定义了图的基本元素如节点(Node)和边(Edge),以及节点的状态...
在这个项目中,作者实现了一个简单的MapReduce程序,并对初始代码进行了优化。 MapReduce的核心思想是将大任务分解为小任务并行处理,然后将结果合并。它由两个主要阶段组成:Map阶段和Reduce阶段。在Map阶段,原始...