hadoop安全机制

博客分类：

HADOOP

1．背景 1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式，这种模式可以减小维护成本，且避免数据过度冗余，增加硬件成本。共享Hadoop是指：（1）管理员把研发人员分成若干个队列，每个队列分配一定量的资源，每个用户或者用户组只能使用某个队列中得资源；（2）HDFS上存有各种数据，有公用的，有机密的，不同的用户可以访问不同的数据。共享集群类似于云计算或者云存储，面临的一个最大问题是安全。 1.2 几个概念安全认证：确保某个用户是自己声称的那个用户。

2015-05-22 18:04
浏览 1008
评论(0)
分类:开源软件

zookeeper疑问

博客分类：

ZOOKEEPER

zookeeper

今年年初的时候，写了一篇ZooKeeper的入门文章《初识ZooKeeper》，一直到这一周，才有时间将ZooKeeper整个源码通读了一遍。不能说完全理解了ZooKeeper的工作原理与细节，但是之前心中一直关于ZooKeeper的疑问都得到了解释。现在网上关于ZooKeeper的文章很多，有介绍Leader选举算法的，有介绍ZooKeeper Server内部原理的，还有介绍ZooKeeper Client的。本文不打算再写类似的内容，而专注与解答读者对ZooKeeper的相关疑问。 ZOOKEEPER在客户端究竟做了什么事情使用过ZooKeeper的读者都知道，初始化客户端的代 ...

2015-05-07 16:12
浏览 1083
评论(0)
分类:开源软件

zookeeper简介及应用场景

博客分类：

ZOOKEEPER

zookeeper

安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式单机安装非常简单，只要获取到 Zookeeper 的压缩包并解压到某个目录如：/home/zookeeper-3.2.2 下，Zookeeper 的启动脚本在 bin 目录下，Linux 下的启动脚本是 zkServer.sh，在 3.2.2 这个版本 Zookeeper 没有提供 w ...

2015-05-07 15:59
浏览 921
评论(0)
分类:开源软件

CDH对hadoop的一些配置指南，包括THP

博客分类：

LINUX
HADOOP

LINUX hadoop 配置

Tips and Guidelines Selecting Appropriate JAR files for your MRv1 and YARN Jobs Each implementation of the CDH4 MapReduce framework (MRv1 and YARN) consists of the artifacts (JAR files) that provide MapReduce functionality as well as auxiliary utility artifacts that are used during the cour ...

2015-04-28 17:16
浏览 2253
评论(0)
分类:开源软件

linux关闭THP

博客分类：

LINUX

linux THP

To make options such as this permanent you'll typically add them to the file /etc/sysctl.conf. You can see a full list of the options available using this command: $ sysctl -a Example $ sudo sysctl -a | head -5 kernel.sched_child_runs_first = 0 kernel.sched_min_granularity_ns = 6000000 kerne ...

2015-04-28 16:40
浏览 3811
评论(0)
分类:操作系统

redhat设置 huge page步骤

博客分类：

LINUX

hugepage linux

Configuring HugePages on Linux Complete the following steps to configure HugePages on the computer: Edit the memlock setting in the /etc/security/limits.conf file. The memlock setting is specified in KB and set slightly lesser than the installed RAM. For example, if you have 64GB RAM installed, ...

2015-04-28 16:37
浏览 2113
评论(0)
分类:操作系统

MAP运行过程

博客分类：

HADOOP

mapreduce hadoop

Anatomy of a MapReduce Job In MapReduce, a YARN application is called a Job. The implementation of the Application Master provided by the MapReduce framework is called MRAppMaster. Timeline of a MapReduce Job This is the timeline of a MapReduce Job execution: Map Phase: several Map Tasks a ...

2015-04-23 16:46
浏览 989
评论(0)
分类:开源软件

LINUX SHELL XARGS使用

博客分类：

LINUX

shell xargs

简介之所以能用到这个命令，关键是由于很多命令不支持|管道来传递参数，而日常工作中有有这个必要，所以就有了xargs命令，例如：这个命令是错误的find /sbin -perm +700 |ls -l 这样才是正确的find /sbin -perm +700 |xargs ls -l xargs 可以读入 stdin 的资料，并且以空白字元或断行字元作为分辨，将 stdin 的资料分隔成为 arguments 。因为是以空白字元作为分隔，所以，如果有一些档名或者是其他意义的名词内含有空白字元的时候， xargs 可能就会误判了,如果需要处理特殊字符，需要使用-0参数进行处理。选项解释 ...

2015-04-23 15:46
浏览 1111
评论(0)
分类:操作系统

MAP/REDUCE TASK作业状态转移图

博客分类：

HADOOP

mapreduce

Task Attempt Table of contents: Finite State Machine NEW => UNASSIGNED [TA_SCHEDULE] UNASSIGNED => ASSIGNED [TA_ASSIGNED] ASSIGNED => RUNNING [TA_CONTAINER_LAUNCHED] RUNNING => SUCCESS_CONTAINER_CLEANUP [TA_DONE], COMMIT_PENDING => SUCCESS_CONTAINER_CLEANUP[TA_DONE] SUCCES ...

2015-04-23 13:37
浏览 1250
评论(0)
分类:开源软件

YARN常见问题

博客分类：

HADOOP

Hadoop

本文汇总了几个hadoop yarn中常见问题以及解决方案，注意，本文介绍解决方案适用于hadoop 2.2.0以及以上版本。　　（1）默认情况下，各个节点的负载不均衡（任务数目不同），有的节点很多任务在跑，有的没有任务，怎样让各个节点任务数目尽可能均衡呢？　　答：默认情况下，资源调度器处于批调度模式下，即一个心跳会尽可能多的分配任务，这样，优先发送心跳过来的节点将会把任务领光（前提：任务数目远小于集群可以同时运行的任务数量），为了避免该情况发生，可以按照以下说明配置参数：

2015-04-23 00:40
浏览 942
评论(0)
分类:开源软件

转载--淘宝hadoop升级遇到的问题

博客分类：

HADOOP

hadoop

搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级: 2013-04 第一阶段，主要是升级hdfs为2.0版本，mapreduce仍旧是1.0;同时hbase也进行了一次重大升级（0.94.5版本）,hive升级到0.9.0; 2013-09,2013-12 第二阶段,主要升级mapreduce到2.0版本即(YARN),hive升级到0.10.0,在13年年底的时候对hbase进行了一次小版本升级; 至此，dump离线集群完全进入2.0时代: 通过升级hdfs 2.0优化shortcirc ...

2015-04-22 18:03
浏览 1179
评论(0)
分类:开源软件

hbase0.96—+版本的endpoint

博客分类：

HBASE

hbase endpoint

HBase Coprocessor 之 endpiont(hbase 0.96.0) 分类： hbase2014-04-22 15:23 1661人阅读评论(0) 收藏举报 hbase

2015-04-21 17:16
浏览 953
评论(0)
分类:开源软件

hbase observer

博客分类：

HBASE

hbase 协处理器 oberver

Hbase自0.92之后开始支持Coprocessor（协处理器），旨在使用户可以将自己的代码放在regionserver上来运行，即将计算程序移动到数据所在的位置进行运算。这一点与MapReduce的思想一致。Hbase的Coprocess分为observer和endpoint两大类。简单说� ...

2015-04-21 10:28
浏览 1011
评论(0)
分类:开源软件

hbase block cache中的in-memory

博客分类：

HBASE

hbase in-memory

每load一个block到cache时，都会检查当前cache的size是否已经超过了“警戒线”，这个“警戒线”是一个规定的当前block cache总体积占额定体积的安全比例，默认该值是0.85，即当加载了一个block到cache后总大小超过了既定的85%就开始触发异步的evict操作了。evict的逻辑是这样的：遍历cache中的所有block,根据它们所属的级别(single,multi,in-memory)分拨到三个优先级队列中，队头元素是最旧（最近访问日间值最小）的那个block。对这个三队列依次驱逐对头元素，释放空间。所以说:in-memory的block与其他类型的block并无 ...

2015-04-21 10:26
浏览 1196
评论(0)
分类:开源软件

top命令

博客分类：

LINUX

top llinux

在使用top命令的时候会看到这么一行：里面的各个值分别是什么意思呢？今天被问到这个问题，发现答的不是很清楚。果然啊，天天用最多的top命令都还没摸透。。。惭愧。。。于是就查了些资料：官方解释 Cpu(s)表示的是cpu信息。各个值的意思是： us: user cpu time (or) % CPU time spent in user space sy: system cpu time (or) % CPU time spent in kernel space

2015-04-19 14:55
浏览 758
评论(0)
分类:操作系统

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop安全机制

zookeeper疑问

zookeeper简介及应用场景

CDH对hadoop的一些配置指南，包括THP

linux关闭THP

redhat设置 huge page步骤

MAP运行过程

LINUX SHELL XARGS使用

MAP/REDUCE TASK作业状态转移图

YARN常见问题

转载--淘宝hadoop升级遇到的问题

hbase0.96—+版本的endpoint

hbase observer

hbase block cache中的in-memory

top命令

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>