- 浏览: 346712 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
tpxcer:
不开启时可以的,而且开启以后各种坑。。。。
hue beeswax权限管理 -
yangze:
博主请教一个问题,hue 控制hive表的权限怎么弄? 怎么联 ...
cloudera新增用户权限配置 -
linux91:
楼主你好,我用CM配置LDAP用户组映射,进入impala时, ...
sentry配置 -
linux91:
版主:按你的步骤配置了,可是,执行 impala-shell ...
impala集成LDAP -
lookqlp:
super_a 写道你好!找不到表这个问题是如何解决的,可以描 ...
hcatalog读取hive数据并写入hive
解压hadoop-2.2.0.tar.gz
目录说明:
drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:37 bin/ ......hadoop命令及yarn命令
drwxr-xr-x 3 qiulp qiulp 4096 Oct 7 14:38 etc/ ......site xml配置文件
drwxr-xr-x 2 qiulp qiulp 4096 Oct 7 14:38 include/
drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:40 sbin/ ......启动命令
drwxr-xr-x 4 qiulp qiulp 4096 Oct 7 14:38 share/ ......jar 源码(example jar)
配置hadoop jdk环境变量
修改etc/hadoop/hadoop-env.sh yarn-env.sh javahome例如:export JAVA_HOME=/usr/local/jrockit-jdk1.6.0_29
修改etc/hadoop/slaves文件,单点则直接配置该机器hostname
单机无密码登录
修改xml
core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://qiulp:9010</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
.....................
hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
....................
mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>-----指定采用的框架名称yarn 有local和classic默认事jobtracker即mrv1
</property>
<property>
<name>mapreduce.cluster.temp.dir</name>
<value>/usr/local/hadoop/ctmp/</value>
<description>No description</description>
<final>true</final>
</property>
<property>
<name>mapreduce.cluster.local.dir</name>
<value>/usr/local/hadoop/clocal</value>
<description>No description</description>
<final>true</final>
</property>
........................
yarn-site.xml
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>qiulp:8031</value>
<description>host is the hostname of the resource manager and
port is the port on which the NodeManagers contact the Resource Manager.
</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>qiulp:8030</value>
<description>host is the hostname of the resourcemanager and port is the port
on which the Applications in the cluster talk to the Resource Manager.
</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
<description>In case you do not want to use the default scheduler</description>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>qiulp:8032</value>
<description>the host is the hostname of the ResourceManager and the port is the port on
which the clients can talk to the Resource Manager. </description>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value></value>
<description>the local directories used by the nodemanager</description>
</property>
<property>
<name>yarn.nodemanager.address</name>
<value>qiulp:0</value>
<description>the nodemanagers bind to this port</description>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>10240</value>
<description>the amount of memory on the NodeManager in GB</description>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/app-logs</value>
<description>directory on hdfs where the application logs are moved to </description>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value></value>
<description>the directories used by Nodemanagers as log directories</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<description>shuffle service that needs to be set for Map Reduce to run </description>
</property>
<property>
<name>yarn.web-proxy.address</name>
<value>qiulp:8038</value>
</property>
................................
capacity-scheduler.xml
使用默认即可
执行命令
hadoop namenode -format
(正常情况下直接成功,没有提示输入y or n,若不成功共删除相关文件,例如/usr/local/hadoop下文件清空)
启动:
sbin/start-all.sh
5451 NodeManager
5033 SecondaryNameNode
5226 ResourceManager
4516 NameNode
4735 DataNode
Start a standalone WebAppProxy server. If multiple servers are used with load balancing it should be run on each of them:
$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh start proxyserver --config $HADOOP_CONF_DIR
Start the MapReduce JobHistory Server with the following command, run on the designated server:
$ $HADOOP_PREFIX/sbin/mr-jobhistory-daemon.sh start historyserver --config $HADOOP_CONF_DIR
7540 WebAppProxyServer
7628 JobHistoryServer
JobHistoryServer开启后可查看历史任务日志http://qiulp:19888/jobhistory
相关web Interfaces
NameNode http://nn_host:port/ Default HTTP port is 50070.
ResourceManager http://rm_host:port/ Default HTTP port is 8088.
MapReduce JobHistory Server http://jhs_host:port/ Default HTTP port is 19888.
目录说明:
drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:37 bin/ ......hadoop命令及yarn命令
drwxr-xr-x 3 qiulp qiulp 4096 Oct 7 14:38 etc/ ......site xml配置文件
drwxr-xr-x 2 qiulp qiulp 4096 Oct 7 14:38 include/
drwxr-xr-x 2 qiulp qiulp 4096 Oct 22 11:40 sbin/ ......启动命令
drwxr-xr-x 4 qiulp qiulp 4096 Oct 7 14:38 share/ ......jar 源码(example jar)
配置hadoop jdk环境变量
修改etc/hadoop/hadoop-env.sh yarn-env.sh javahome例如:export JAVA_HOME=/usr/local/jrockit-jdk1.6.0_29
修改etc/hadoop/slaves文件,单点则直接配置该机器hostname
单机无密码登录
修改xml
core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://qiulp:9010</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
.....................
hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
....................
mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>-----指定采用的框架名称yarn 有local和classic默认事jobtracker即mrv1
</property>
<property>
<name>mapreduce.cluster.temp.dir</name>
<value>/usr/local/hadoop/ctmp/</value>
<description>No description</description>
<final>true</final>
</property>
<property>
<name>mapreduce.cluster.local.dir</name>
<value>/usr/local/hadoop/clocal</value>
<description>No description</description>
<final>true</final>
</property>
........................
yarn-site.xml
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>qiulp:8031</value>
<description>host is the hostname of the resource manager and
port is the port on which the NodeManagers contact the Resource Manager.
</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>qiulp:8030</value>
<description>host is the hostname of the resourcemanager and port is the port
on which the Applications in the cluster talk to the Resource Manager.
</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
<description>In case you do not want to use the default scheduler</description>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>qiulp:8032</value>
<description>the host is the hostname of the ResourceManager and the port is the port on
which the clients can talk to the Resource Manager. </description>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value></value>
<description>the local directories used by the nodemanager</description>
</property>
<property>
<name>yarn.nodemanager.address</name>
<value>qiulp:0</value>
<description>the nodemanagers bind to this port</description>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>10240</value>
<description>the amount of memory on the NodeManager in GB</description>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/app-logs</value>
<description>directory on hdfs where the application logs are moved to </description>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value></value>
<description>the directories used by Nodemanagers as log directories</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<description>shuffle service that needs to be set for Map Reduce to run </description>
</property>
<property>
<name>yarn.web-proxy.address</name>
<value>qiulp:8038</value>
</property>
................................
capacity-scheduler.xml
使用默认即可
执行命令
hadoop namenode -format
(正常情况下直接成功,没有提示输入y or n,若不成功共删除相关文件,例如/usr/local/hadoop下文件清空)
启动:
sbin/start-all.sh
5451 NodeManager
5033 SecondaryNameNode
5226 ResourceManager
4516 NameNode
4735 DataNode
Start a standalone WebAppProxy server. If multiple servers are used with load balancing it should be run on each of them:
$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh start proxyserver --config $HADOOP_CONF_DIR
Start the MapReduce JobHistory Server with the following command, run on the designated server:
$ $HADOOP_PREFIX/sbin/mr-jobhistory-daemon.sh start historyserver --config $HADOOP_CONF_DIR
7540 WebAppProxyServer
7628 JobHistoryServer
JobHistoryServer开启后可查看历史任务日志http://qiulp:19888/jobhistory
相关web Interfaces
NameNode http://nn_host:port/ Default HTTP port is 50070.
ResourceManager http://rm_host:port/ Default HTTP port is 8088.
MapReduce JobHistory Server http://jhs_host:port/ Default HTTP port is 19888.
发表评论
-
hive相关元数据迁移(mysql)
2015-11-18 18:27 2576mysqldump -hhost -uroot -ppassw ... -
hive dynamic partitions insert java.lang.OutOfMemoryError: Java heap space
2015-10-26 18:03 3101动态分区问题,如果数据量大或者当动态分区大甚至只有十几个时 ... -
hive集成LDAP
2015-02-13 10:09 9752cloudera manager hive- sevice ... -
sentry配置
2015-02-13 10:06 2354当前cdh版本为5.2.0,且通过cloudera mange ... -
hue beeswax权限管理
2014-08-05 17:54 10653http://www.cloudera.com/content ... -
cloudera client集群部署
2014-08-05 17:48 693一般我们使用使用client机器访问集群,而不会直接在hado ... -
cloudera manager kerberos配置
2014-08-05 17:37 1556CDH5.1.0前的版本,可以通过cloudera manag ... -
CDH5安装
2014-08-05 17:05 2323CDH安装有很多方式: ta ... -
hadoop集群数据迁移
2014-08-04 22:31 6569hadoop distcp hdfs://namenode1/ ... -
java.lang.OutOfMemoryError: unable to create new native thread
2014-05-23 17:29 170935227 2014-05-21 13:53:18,504 I ... -
hadoop-2.2.0编译import eclipse
2013-10-22 17:50 7799编译hadoop-2.2.0 下载hadoop-2.2.0-s ... -
oozie 安装
2013-09-29 18:22 7509废话不多说,直接步骤 安装 准备: oozie-3.3.2,o ... -
mapreduce java.lang.ClassNotFoundException:
2013-03-07 15:06 3025好久没写mr了,今天写了个在eclipse上运行很顺畅,但是使 ... -
ganglia监控hadoop各指标说明
2012-11-20 14:04 1629做个mark! 监控指标大致如下: default.shu ... -
关于mapreduce解析xml的方法
2012-03-29 11:52 1743mapreduce的TextInputFormat很方便的处理 ... -
如何在mapreduce方法中获取当前使用文件(get file name)
2012-03-29 11:42 1885使用的0.20.2版本hadoop 查了许久,如何在map方法 ... -
如何提示mapreduce,查看systemout信息
2012-01-14 14:47 1274又折腾了大半天,只解决了一半的问题吧。 已经解决部分: 可以通 ... -
wordcount
2012-01-11 17:40 889window eclipse开发环境下 运行wordcout ... -
hbase Waiting on regionserver(s) to checkin
2012-01-11 12:16 2595hbase启动不来,一直checkin。 查看日志含有: or ... -
hadoop format后启动不了
2012-01-11 12:13 943format后启动不了,可能是个个节点包括name节点的had ...
相关推荐
在文档中提到的HA(High Availability)方式,意味着Hadoop被配置为高可用模式,确保NameNode的冗余,避免单点故障。 接着,HBase-0.96.2是一个基于Apache Hadoop的数据存储系统,它构建在HDFS之上,提供了一个...
- 容错机制:包括检查点、复制和故障恢复功能,确保系统的高可用性。 - 资源管理:例如配置管理、日志管理和安全性机制,帮助管理系统资源。 - 共享库:包含各种实用工具,如压缩、加密和序列化。 2. HDFS概述 ...
- 配置Ranger与企业身份管理系统集成,实现单点登录(SSO)和统一的身份管理。 通过深入理解并有效利用"ranger-2.2.0-admin.tar.gz"提供的Ranger组件和服务,你可以极大地提升大数据平台的安全性和合规性,确保...
在部署和使用Apache Atlas 2.2.0时,用户需要注意以下几点: 1. **系统需求**:确认操作系统和Java版本兼容性,通常需要Java 8或更高版本。 2. **安装HBase和Solr**:因为这个二进制包不包含HBase和Solr,用户需要...
【Hadoop 2.2.0 知识点详解】 Hadoop是Apache软件基金会开发的一个开源框架,专门设计用于处理和存储大规模数据。Hadoop 2.2.0是其一个重要版本,它在Hadoop 1.x的基础上进行了大量的优化和改进,增强了系统的稳定...
在提供的`apache-ranger-2.2.0-usersync.tar.gz`文件中,包含了Ranger 用户同步工具,它用于将企业目录服务(如Active Directory或LDAP)中的用户和组信息同步到Ranger 中,实现单点登录(SSO)和统一的权限管理。...
2.hadoop-2.2.0中依然存在一个问题,就是ResourceManager只有一个,存在单点故障,hadoop-2.4.1解决了这个问题,有两个ResourceManager,一个是Active,一个 是Standby,状态由zookeeper进行协调
Hadoop2.2.0的HDFS(Hadoop分布式文件系统)高可用性(HA)解决方案是针对Hadoop早期版本中NameNode存在的单点故障问题而设计的。在Hadoop2.0.0之前,HDFS集群中只有一个NameNode,如果NameNode所在机器出现故障,会...
6. "hadoop2.2.0伪分布式搭建.txt" - 这可能是一个文本指南,指导如何在单机环境下设置Hadoop的伪分布式模式,这是学习Hadoop的常见起点。 7. "分布式文件系统.txt" - 可能详细阐述了Hadoop分布式文件系统(HDFS)...
1. **安装Java环境**:Hadoop依赖Java运行,所以你需要先确保系统已经安装了JDK,并且`JAVA_HOME`环境变量指向正确的位置。 2. **下载Hadoop**:从Apache官网下载Hadoop 2.2.0的二进制包,解压到你选择的目录,例如...
c) **HDFS Federation**:通过Federation,Hadoop的HDFS集群可以拥有多个NameNode,每个管理一部分目录,提高系统扩展性和性能,但每个NameNode仍然需要备份以解决单点故障。 d) **HDFS快照**:快照功能允许创建...
在这个场景中,我们将关注Hadoop 2.2.0版本的伪分布式配置,这是一种在单台机器上模拟分布式环境的方式,便于测试和学习。 在Hadoop的配置文件中,有几个核心的参数需要我们重点关注: 1. **core-site.xml**:这是...
HDFS Federation解决了NameNode的单点故障问题,通过允许多个NameNode管理不同的命名空间(namespace),每个NameNode负责一部分目录,这样就分散了元数据的管理压力,提高了系统的可扩展性。不过,每个NameNode仍然...
Spark是Apache Hadoop生态系统中的一个分布式计算框架,它专为大规模数据处理而设计,提供了高效、灵活和易于使用的数据处理工具。在这个“spark example 2.2.0版本 maven项目”中,我们可以深入理解Spark的基本用法...
2. **版本匹配**:文档指出,由于使用的是CentOS 6.5 32位系统和Hadoop 2.2.0,因此选择了Hive 0.12.0版本。通常,不同组件之间需要匹配合适的版本以确保稳定运行。 3. **Hive安装**:Hive的安装过程相对简单,只...
- **Hadoop**:版本为2.2.0,需编译成64位版本。 - **Scala**:版本为2.10.4。 - **Spark**:版本为1.1.0,需要进行编译。 ##### 集群网络环境 本环境搭建了一个由三台虚拟机组成的集群,节点间能够通过免密码SSH...
1. **Spark版本与Hadoop兼容性**:Spark 2.2.0版本是支持Hadoop 2.7的,但需要注意的是,从Spark 2.0版本开始,它才正式支持Hadoop 2.7。同时,该版本的Spark需要Java Development Kit (JDK) 1.8或更高版本。 2. **...