- 浏览: 129076 次
- 性别:
- 来自: 深圳
-
最新评论
文章列表
最近在测试环境跑任务,有一部分任务出现如下情况:
推测执行(Speculative Execution)是指在集群环境下运行MapReduce,可能是程序Bug,负载不均或者其他的一些问题,导致在一个JOB下的多个TASK速度不一致,比如有的任务已经完成,但是有些任务可能只跑了10%,根据木桶原理,这些任务将成为整个JOB的短板,如果集群启动了推测执行,这时为了最大限度的提高短板,Hadoop会为该task启动备份任务,让speculative task与原始task同时处理一份数据,哪个先运行完,则将谁的结果作为最终结果,并且在运行完成后Kill掉另外一个任务。
推测执行(Spec ...
- 2015-08-13 16:55
- 浏览 1015
- 评论(0)
概述
所有的Hadoop命令都通过bin/mapred脚本调用。在没有任何参数的情况下,运行mapred脚本将打印该命令描述。
使用:mapred [--config confdir] COMMAND
[hadoop@hadoopcluster78 bin]$ mapred
Usage: mapred [--config confdir] COMMAND
where COMMAND is one of:
pipes run a Pipes job
job manipulate MapReduce j ...
- 2015-08-13 16:26
- 浏览 1158
- 评论(0)
概述
YARN命令是调用bin/yarn脚本文件,如果运行yarn脚本没有带任何参数,则会打印yarn所有命令的描述。
使用: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS]
YARN有一个参数解析框架,采用解析泛型参数以及运行类。
命令参数
描述
--config confdir
指定一个默认的配置文件目录,默认值是: ${HADOOP_PREFIX}/conf.
--loglevel loglevel
- 2015-08-11 09:41
- 浏览 1822
- 评论(0)
一,安装Python
我下载的版本是:Python 3.4.3,下载地址是:https://www.python.org/downloads/windows/
选择:Latest Python 3 Release - Python 3.4.3
然后下载你所需要的安装包:
下载后,下一步下一步安装即可。
安装过程中,会自动的将Python添加到系统的环境变量中。
打开cmd,输入“py”会输出如下信息:
好了,安装成功,来个hello XXX:
Python2和Python3的区别可以参考如下两篇文章:
https://wiki.python.org/mo ...
- 2015-08-10 09:24
- 浏览 688
- 评论(0)
概述:
文件系统(FS)Shell包含各种类-Shell的命令,直接和Hadoop分布式文件系统(HDFS)交互,也支持对其他文件系统的支持,例如:本地文件系统FS,HFTP FS,S3 FS,和其他。FS Shell的调用:
bin/hadoop fs <args>
所有的FS shel ...
- 2015-08-08 14:17
- 浏览 2049
- 评论(0)
概述
所有的Hadoop命令都通过bin/hadoop脚本调用。在没有任何参数的情况下,运行Hadoop脚本将打印该命令描述。
[hduser@hadoop3 hadoop-2.4.1]$ bin/hadoop
Usage: hadoop [--config confdir] COMMAND
where COMMAND is one of:
fs run a generic filesystem user client
version print the version
jar <jar> ...
- 2015-08-07 10:43
- 浏览 766
- 评论(0)
在分布式集群下,由于机架的的槽位和交换机网口数量的限制,使得集群上的机器不得不跨越机架,通常一个大型的集群会跨越很多机架。一般情况机架内机器的通讯会快于跨机架机器之间的通讯,并且机架之间机器的网络通信 ...
- 2015-08-05 17:19
- 浏览 874
- 评论(0)
一,目的
如何配置Hadoop集群,如果只是简单的玩玩hadoop(看
Single Node Setup)。该篇不包含Hadoop的一些高级特别,如安全和高可用等。
二,安装
参考:Hadoop之集群安装
三,非安全模式配置Hadoop
hadoop的配置是由下列两种类型的配置文件驱动的:
1,只读默认配置core-default.xml,hdfs-default.xml,yarn-default.xml和mapred-default.xml
2,用户配置:etc/hadoop/core-site.xml, etc/hadoop/hdfs-site.xml, et ...
- 2015-08-04 20:50
- 浏览 926
- 评论(0)
一,CheckStyle
CheckStyle是SourceForge下的一个项目,提供了一个帮助JAVA开发人员遵守某些编码规范的工具。它能够自动化代码规范检查过程,从而使得开发人员从这项重要但是枯燥的任务中解脱出来,使用CheckStyle可以提升JAVA编码质量。
CheckStyle检验的主要内容:
1,Javadoc注释
2,命名约定
3,标题
4,Import语句
5,体积大小
6,空白
7,修饰符
8,块
9,代码问题
10,类设计11,混合检查(包活一些有用的比如非必须的System.out和printstackTrace)
安装CheckStyle ...
- 2015-07-30 15:35
- 浏览 1417
- 评论(0)
HTML特殊字符编码对照表
特殊符号
命名实体
十进制编码
特殊符号
命名实体
十进制编码
特殊符号
命名实体
十进制编码
Α
Α
Α
Β
Β
Β
Γ
Γ
Γ
Δ
Δ
Δ
Ε
Ε
Ε
Ζ
Ζ
Ζ
Η
Η
Η
Θ
Θ
& ...
- 2015-07-28 16:27
- 浏览 412
- 评论(0)
前言
这是一篇学习笔记。
学习的材料来自Jay Kreps的一篇讲Log的博文。
原文很长,但是我坚持看完了,收获颇多,也深深为Jay哥的技术能力、架构能力和对于分布式系统的理解之深刻所折服。同时也因为某些理解和Jay哥观点吻合而略沾沾自喜。
Jay Kreps是前Linkedin的Principal Staff Engineer,现任Confluent公司的联合创始人和CEO,Kafka和Samza的主要作者。
所谓笔记,就是看了文章,提笔就记,因为Jay哥本身本章组织的太好,而其本身的科学素养及哲学素养也很高,所以私以为出彩的东西就不省略了。
一、资料来源
The Lo ...
- 2015-07-23 10:04
- 浏览 593
- 评论(0)
yarn通用资源管理框架主要由以下几个部分组成:
ResourceManager(RM):由Scheduler调度器和ApplicationsManager(ASM:资源管理器)2个组件组成,ResourceManager和每个NodeManager
(NM)构成一个资源估算框架,管理协调分配集群中的资源,对在系统中所有应用的资源分配拥有最终最高级别的仲裁权。ApplicationMaster(AM):用来协调应用程序下Task的运行。它和MapReduce Task都运行在 Container中,这个Container由RM(ResourcesManager)调度(启动/停止)并由N ...
- 2015-07-22 18:11
- 浏览 3577
- 评论(0)
Hadoop的CPU可以采用cgroup来控制,在默认的情况下NodeManager不会对CPU资源进行任何控制,但是可以通过配置cgroup来支持对CPU的控制。下面可以通过转载的这篇文章对cgroup有一个简单的了解,转载地址:http://www.cnblogs.com/yjf512/p/3298582.html为什么要有cgroup
Linux系统中经常有个需求就是希望能限制某个或者某些进程的分配资源。也就是能完成一组容器的概念,在这个容器中,有分配好的特定比例的cpu时间,IO时间,可用内存大小等。于是就出现了cgroup的概念,cgroup就是controller group,最初 ...
- 2015-07-20 16:03
- 浏览 429
- 评论(0)
转载:http://doudouclever.blog.163.com/blog/static/175112310201271043210475/
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大 ...
- 2015-07-18 17:32
- 浏览 503
- 评论(0)
首先通过git从https://github.com/elasticsearch/elasticsearch-servicewrapper下载该项目。
然后将下载下来的项目的service目录拷贝到elasticsearch安装目录下的bin目录。
在service目录执行:
chmod a+x elasticsearch
然后就可以启动了。
./elasticsearch console 在前台运行es
- 2015-07-18 16:49
- 浏览 2403
- 评论(0)