- 浏览: 362164 次
-
最新评论
-
jfeifjlafekae:
另外,为什么存储日志会有拆分过程,而不是rotation方式? ...
HBASE数据架构 -
jfeifjlafekae:
“当然,数据刷写时,一个Region只要有一个列族的memSt ...
HBASE数据架构 -
hmc52107521:
你好,params.keys,params.values以及# ...
mybatis中使用map类型参数,其中key为列名,value为列值 -
zhangxiong0301:
qindongliang1922 写道AM中其它与内存相关的参 ...
(转)YARN内存配置 -
qindongliang1922:
AM中其它与内存相关的参数,还有JVM相关的参数,这些参数可以 ...
(转)YARN内存配置
文章列表
1.背景
1.1 共享Hadoop集群
当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。
共享集群类似于云计算或者云存储,面临的一个最大问题是安全。
1.2 几个概念
安全认证:确保某个用户是自己声称的那个用户。
今年年初的时候,写了一篇ZooKeeper的入门文章《初识ZooKeeper》,一直到这一周,才有时间将ZooKeeper整个源码通读了一遍。不能说完全理解了ZooKeeper的工作原理与细节,但是之前心中一直关于ZooKeeper的疑问都得到了解释。
现在网上关于ZooKeeper的文章很多,有介绍Leader选举算法的,有介绍ZooKeeper Server内部原理的,还有介绍ZooKeeper Client的。本文不打算再写类似的内容,而专注与解答读者对ZooKeeper的相关疑问。
ZOOKEEPER在客户端究竟做了什么事情
使用过ZooKeeper的读者都知道,初始化客户端的代 ...
安装和配置详解
本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。
单机模式
单机安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目录如:/home/zookeeper-3.2.2 下,Zookeeper 的启动脚本在 bin 目录下,Linux 下的启动脚本是 zkServer.sh,在 3.2.2 这个版本 Zookeeper 没有提供 w ...
Tips and Guidelines
Selecting Appropriate JAR files for your MRv1 and YARN Jobs
Each implementation of the CDH4 MapReduce framework (MRv1 and YARN) consists of the artifacts (JAR files) that provide MapReduce functionality as well as auxiliary utility artifacts that are used during the cour ...
To make options such as this permanent you'll typically add them to the file /etc/sysctl.conf. You can see a full list of the options available using this command:
$ sysctl -a
Example
$ sudo sysctl -a | head -5
kernel.sched_child_runs_first = 0
kernel.sched_min_granularity_ns = 6000000
kerne ...
Configuring HugePages on Linux
Complete the following steps to configure HugePages on the computer:
Edit the memlock setting in the /etc/security/limits.conf file. The memlock setting is specified in KB and set slightly lesser than the installed RAM. For example, if you have 64GB RAM installed, ...
Anatomy of a MapReduce Job
In MapReduce, a YARN application is called a Job. The implementation of the Application Master provided by the MapReduce framework is called MRAppMaster.
Timeline of a MapReduce Job
This is the timeline of a MapReduce Job execution:
Map Phase: several Map Tasks a ...
简介之所以能用到这个命令,关键是由于很多命令不支持|管道来传递参数,而日常工作中有有这个必要,所以就有了xargs命令,例如:
这个命令是错误的find /sbin -perm +700 |ls -l
这样才是正确的find /sbin -perm +700 |xargs ls -l xargs 可以读入 stdin 的资料,并且以空白字元或断行字元作为分辨,将 stdin 的资料分隔成为 arguments 。 因为是以空白字元作为分隔,所以,如果有一些档名或者是其他意义的名词内含有空白字元的时候, xargs 可能就会误判了,如果需要处理特殊字符,需要使用-0参数进行处理。选项解释 ...
Task Attempt
Table of contents:
Finite State Machine
NEW => UNASSIGNED [TA_SCHEDULE]
UNASSIGNED => ASSIGNED [TA_ASSIGNED]
ASSIGNED => RUNNING [TA_CONTAINER_LAUNCHED]
RUNNING => SUCCESS_CONTAINER_CLEANUP [TA_DONE], COMMIT_PENDING => SUCCESS_CONTAINER_CLEANUP[TA_DONE]
SUCCES ...
本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。 (1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢? 答: 默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务数目远小于集群可以同时运行的任务数量),为了避免该情况发生,可以按照以下说明配置参数:
搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级:
2013-04
第一阶段,主要是升级hdfs为2.0版本,mapreduce仍旧是1.0;同时hbase也进行了一次重大升级(0.94.5版本),hive升级到0.9.0;
2013-09,2013-12
第二阶段,主要升级mapreduce到2.0版本即(YARN),hive升级到0.10.0,在13年年底的时候对hbase进行了一次小版本升级;
至此,dump离线集群完全进入2.0时代:
通过升级hdfs 2.0优化shortcirc ...
HBase Coprocessor 之 endpiont(hbase 0.96.0)
分类: hbase2014-04-22 15:23 1661人阅读 评论(0) 收藏 举报
hbase
Hbase自0.92之后开始支持Coprocessor(协处理器),旨在使用户可以将自己的代码放在regionserver上来运行,即将计算程序移动到数据所在的位置进行运算。这一点与MapReduce的思想一致。Hbase的Coprocess分为observer和endpoint两大类。简单说 ...
每load一个block到cache时,都会检查当前cache的size是否已经超过了“警戒线”,这个“警戒线”是一个规定的当前block cache总体积占额定体积的安全比例,默认该值是0.85,即当加载了一个block到cache后总大小超过了既定的85%就开始触发异步的evict操作了。evict的逻辑是这样的:遍历cache中的所有block,根据它们所属的级别(single,multi,in-memory)分拨到三个优先级队列中,队头元素是最旧(最近访问日间值最小)的那个block。对这个三队列依次驱逐对头元素,释放空间。所以说:in-memory的block与其他类型的block并无 ...
在使用top命令的时候会看到这么一行:
里面的各个值分别是什么意思呢?
今天被问到这个问题,发现答的不是很清楚。果然啊,天天用最多的top命令都还没摸透。。。惭愧。。。于是就查了些资料:
官方解释
Cpu(s)表示的是cpu信息。各个值的意思是:
us: user cpu time (or) % CPU time spent in user space
sy: system cpu time (or) % CPU time spent in kernel space