- 浏览: 111875 次
- 性别:
- 来自: 深圳
最新评论
-
土豆蛋儿:
我想读取一个外部文件,以什么方式好了? 文件内容经常编辑
flume 自定义source -
土豆蛋儿:
大神,您好。
flume 自定义source
文章列表
引用原文:http://www.cnblogs.com/haippy/archive/2012/07/26/2609769.html
引言
本文将告诉你如何使用 Zookeeper 实现两种常用的分布式数据结构,屏障(barriers) 和队列(queues),我们为此还分别实现了两个类:Barrier and Queue. 本文中的例子假设你已经成功运行了Zookeeper服务器。
上述两种最基本的原语都使用了下面的常见编码规范:
static ZooKeeper zk = null;
static Integer mutex;
String root;
...
import:
sqoop import connect jdbc:mysql://mysql.example.com/sqoop --username sqoop --password sqoop --table cities
--connect:指定JDBC URL
--username/password:mysql数据库的用户名
--table:要读取的数据库表
sqoop import connect jdbc:mysql://mysql.example.com/sqoop --username sqoop --password sqoop --table cities - ...
原文:http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.html
Zookeeper 进阶之——典型应用场景(二)
2012-07-23 20:57 by Haippy, 5320 阅读, 0 评论, 收藏, 编辑
本文是前一篇博文《Zookeeper 进阶之——典型应用场景(一)》的姊妹篇
阅读指南 ...
ZooKeeper 典型的应用场景
- 博客分类:
- zookeeper
引用原文:http://www.cnblogs.com/haippy/archive/2012/07/23/2603583.html
ZooKeeper 典型的应用场景:
Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注 ...
zookeeper java实例
- 博客分类:
- zookeeper
引用原文:http://www.cnblogs.com/haippy/archive/2012/07/20/2600077.html
简介
Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以 ...
zookeeper java-api
- 博客分类:
- zookeeper
原文:http://www.cnblogs.com/haippy/archive/2012/07/19/2600032.html
简介
Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分 ...
zookeeper的伪分布式搭建
- 博客分类:
- zookeeper
引用原文:http://www.cnblogs.com/haippy/archive/2012/07/19/2599989.html
简介
Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目。Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以 ...
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的“资源调度”)后,NodeManager需按照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行提供基础的保证,这就是所 ...
Capacity Scheduler是YARN中默认的资源调度器。
想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。
在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队列可以配置的参数如下:
1. 资源分配相关参数
(1) capacity:队列的资源容量(百分比)。 当系统非常繁忙时,应保证每个队列的容量得到满足,而如果每个队列应用程序较少,可将剩余资源共享给其他队 ...
首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。
Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参数,另 ...
mapreduce 任务调度器的配置
- 博客分类:
- mapreduce
需求
公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。
思路
hadoop的默认调度器是FIFO,但是也有计算容量调度器,这个调度器可以解决上述问题。可以在hadoop里配置三个队列,一个是default,一个是hive,一个是pig。他们的计算容量分别是30%,40%,30%.这样hive和pig这两个部门,分为使用 ...
需求
公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。
思路
hadoop的默认调度器是FIFO,但是也有计算容量调度器,这个调度器可以解决上述问题。可以在hadoop里配置三个队列,一个是default,一个是hive,一个是pig。他们的计算容量分别是30%,40%,30%.这样hive和pig这两个部门,分为使用 ...
hadoop的管理命令 dfsadmin
- 博客分类:
- hdfs
dfsadmin是一个多任务的工具,我们可以使用它来获取HDFS的状态信息,以及在HDFS上执行的一系列管理操作。
调用方式
例如:Hadoop dfsadmin -report
dfsadmin命令详解
-report:查看文件系统的基本信息和统计信息。
-safeadmin enter | leave | get | wait:安全模式命令。安全模式是NameNode的一种状态,在这种状态下,NameNode不接受对名字空间的更改(只读);不复制或删除块。NameNode在启动时自动进入安全模式,当配置块的最小百分数满足最小副本数的条件时,会自动离开安全模式。enter是进入,le ...
hadoop集群balance工具详解
- 博客分类:
- hdfs
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。
1) hadoop balance ...
hadoop fsck命令详解
- 博客分类:
- hdfs
hadoop fsck
Usage: DFSck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]
<path> 检查这个目录中的文件是否完整
-move 破损的文件移至/lost+found目录
-delete 删除破损的文件
-openforwrite 打印正在打开写操作的文件
-fi ...