core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://cf:8020/</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.permissions.superusergroup</name>
<value>hadoop</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/works/1/dfs/nn</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:/home/hadoop/works/1/dfs/snn</value>
</property>
<!-- checkpoint -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>index:50090</value>
</property>
<property>
<name>dfs.namenode.checkpoint.period</name>
<value>180</value>
</property>
<property>
<name>dfs.namenode.checkpoint.check.period</name>
<value>180</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/works/1/dfs/dn,file:/home/hadoop/works/2/dfs/dn</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.datanode.failed.volumes.tolerated</name>
<value>1</value>
</property>
<!-- 官方文档中没提到这个,日志中报ugi被弊了,***这个也不行 -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>hadoop,hadoop</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx400m</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>cf:8031</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>cf:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>cf:8030</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>cf:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>cf:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>6144</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/home/hadoop/work/1/yarn/local,/home/hadoop/work/2/yarn/local</value>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value>/home/hadoop/work/1/yarn/logs,/home/hadoop/work/2/yarn/logs</value>
</property>
</configuration>
slaves文件指定datanode的机器名。
系统环境变量
export JAVA_HOME=/usr/local/jdk
export HADOOP_PREFIX=~/hadoop-home/hadoop-2.0.0-cdh4.0.0
export HADOOP_MAPRED_HOME=$HADOOP_PREFIX
export HADOOP_COMMON_HOME=$HADOOP_PREFIX
export HADOOP_HDFS_HOME=$HADOOP_PREFIX
export YARN_HOME=$HADOOP_PREFIX
export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin
export HADOOP_LOG_DIR=
分享到:
相关推荐
本教程“Hadoop集群搭建详细简明教程”将带你逐步走进Hadoop的世界,了解并掌握如何构建一个高效稳定的Hadoop集群。 Hadoop是由Apache基金会开发的一个开源项目,其核心包括两个主要组件:Hadoop Distributed File ...
#### 四、Hadoop集群配置 **1. 配置主机名解析** - 编辑/etc/hosts文件,添加master和slave节点的主机名及其对应的IP地址。 **2. SSH无密码登录** - 在master节点上生成SSH密钥对。 - 将公钥复制到每个slave...
【描述】"hadoop入门共21页.pdf.zip" 暗示这是一个简明扼要的教程,可能涵盖了Hadoop的基本概念、安装配置、生态系统组件以及如何进行简单的数据操作。尽管只有21页,但这样的资料通常会以精炼的语言和实例介绍...
《Hadoop入门[归纳].pdf》是对开源大数据处理框架Hadoop的基础介绍,旨在为初学者提供一个全面且简明的学习指南。本文将深入探讨Hadoop的核心概念、应用场景以及初步的部署与操作方法。 Hadoop是Apache Software ...
### Hadoop搭建与Eclipse开发环境配置详解 #### 一、概述 Hadoop是一个能够对大量数据进行分布式处理的软件框架。它具有高可靠性、高效性以及可扩展性等特点,适用于处理PB级别的海量数据。Hadoop的核心组件包括...
Hadoop的安装和配置可能具有一定的挑战性,因为Hadoop集群的部署要求对网络配置、操作系统和Java有一定的了解。为了便于管理,Hadoop集群通常需要一个专门的管理员来维护和优化其性能。 在安全性方面,Hadoop也提供...
2. **Hadoop版本选择**:选择稳定版或最新版,根据需求考虑单节点还是多节点集群。 3. **安装Hadoop**:下载Hadoop二进制包,解压并配置Hadoop配置文件如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`, 和 `...
此外,Hive对Hadoop的常用压缩方法提供了支持,并允许用户配置Hadoop的压缩解压选项。 最后,附录A部分介绍了Hive的安装和配置过程,包括安装Hive、配置Hive、安装MySQL数据库以及启动和测试Hive的步骤。这部分内容...
- 安装配置Hadoop单机环境,熟悉基本操作。 2. **Hadoop集群搭建** - 学习如何搭建Hadoop集群,包括配置多节点环境。 - 理解Hadoop集群的工作机制,如数据分片、任务分配等。 3. **Hadoop分布式文件系统:架构...
- **配置Hadoop压缩解压**: 通过Hadoop配置文件设置。 - **Hive中的压缩**: 设置表属性来指定压缩方法。 - **复杂类型**: - **举例**: 复杂类型的使用示例。 - **array类型**: 存储有序的元素集合。 - **map...
无论哪种方式,都需要确保系统中已安装有Java环境和支持Hadoop的环境配置。 - **运行Pig** - 成功安装后,可以通过命令行方式启动Pig shell进行交互式编程,也可以编写Pig Latin脚本文件并通过命令行提交执行。Pig...
在master1和master2上配置Flume、Nginx服务器和Spark。实验代码包括项目架构图、技术罗列、技术点说明以及Flume配置文件等内容,如Flume.conf用于配置数据源和代理,监控Nginx日志并将其发送至HDFS。 在实验过程中...
2. 云计算概念:云计算是一种通过网络提供计算服务的模式,它包括软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算改变了人们获取和使用计算资源的方式,不再局限于大型服务商如Google和IBM...
1. **《Hive简明教程.pdf》**:这个PDF文档应该包含了Hive的基础概念、安装配置、数据操作和高级特性,是初学者的良好入门资料。 2. **Linux公社与www.Linuxidc.com**:这两个可能是提供相关教程和资源的网站,你...
2. **Solr 快速概览**:对 Solr 的核心功能进行了简明扼要的介绍,为读者提供了 Solr 功能的整体视图。 3. **Solr 系统要求**:详细列出了 Solr 运行所需的最低硬件和软件配置要求,确保用户能够根据自己的实际...
在示例中,每个"Node"可能是一个服务器,而"20 Nodes RACK 1"、"20 Nodes RACK 2"和"20 Nodes RACK 3"代表了机架,每个机架内有20个节点。这种配置是为了优化空间利用和管理,同时确保足够的计算能力与存储容量。 ...
- 总体设计:描述了计算平台的架构设计,包括分布式计算框架(如Hadoop或Spark)、数据存储解决方案(如HDFS或HBase)以及资源调度策略。 4. **其他可能内容** - 数据安全与隐私保护:讨论了如何确保数据的安全...