wget http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/hadoop-2.2.0.tar.gz
tar -xzvf hadoop-2.2.0.tar.gz
cd hadoop-2.2.0
vi etc/hadoop/hadoop-env.sh
修改:
export JAVA_HOME=/home/ysc/jdk1.7.0_17
vi etc/hadoop/slaves
修改localhost为host001
vi etc/hadoop/core-site.xml
增加:
<property>
<name>fs.defaultFS</name>
<value>hdfs://host001:9000</value>
</property>
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vi etc/hadoop/mapred-site.xml
增加:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.cluster.local.dir</name>
<value>/home/ysc/mapreduce/local</value>
</property>
vi etc/hadoop/yarn-site.xml
增加:
<property>
<name>yarn.resourcemanager.hostname</name>
<value>host001</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
vi etc/hadoop/hdfs-site.xml
增加:
<property>
<name>dfs.name.dir</name>
<value>/home/ysc/dfs/filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/ysc/dfs/filesystem/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
sudo vi /etc/profile
增加:
export HADOOP_PREFIX=/home/ysc/hadoop-2.2.0
export HADOOP_COMMON_HOME=/home/ysc/hadoop-2.2.0
export HADOOP_MAPRED_HOME=/home/ysc/hadoop-2.2.0
export HADOOP_CONF_DIR=/home/ysc/hadoop-2.2.0/etc/hadoop
export HADOOP_HDFS_HOME=/home/ysc/hadoop-2.2.0
export HADOOP_YARN_HOME=/home/ysc/hadoop-2.2.0
source /etc/profile
格式化:
bin/hdfs namenode -format
启动dfs:
sbin/start-dfs.sh
启动yarn:
sbin/start-yarn.sh
启动historyserver:
sbin/mr-jobhistory-daemon.sh start historyserver
运行wordcount:
echo "APDPlat is a java open source project, Application Product Development Platform." > text1.txt
echo "Yang Shangchuan is the founder of APDPlat which won the "2013 Outstanding Open Source Project" award." > text2.txt
bin/hadoop fs -mkdir input
bin/hadoop fs -put text1.txt input
bin/hadoop fs -put text2.txt input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
访问管理页面:
ResourceManager: http://host001:8088
NodeManager: http://host001:8042
NameNode:http://host001:50070
NameNode:http://host001:50070
停止dfs:
sbin/stop-dfs.sh
停止yarn:
sbin/stop-yarn.sh
停止historyserver:
sbin/mr-jobhistory-daemon.sh stop historyserver
注意:要把这里的主机host001和用户ysc替换为你自己的,在/etc/hosts文件中要把127.0.0.1 localhost改为实际IP地址 host001
相关推荐
在“大数据系列4:Hive – 基于HADOOP的数据仓库”这篇博文中,可能详细介绍了如何设置和使用Hive,包括安装配置、创建表、导入数据、执行查询、优化性能等方面。通过学习这些内容,读者能够更好地理解Hive的工作...
在IT领域,大数据技术是近年来发展极为迅速的一个分支,它主要关注如何处理和分析海量数据,从而挖掘出有价值的信息。Apache Mahout是一个基于Hadoop的数据挖掘库,专注于提供机器学习算法,是大数据处理中实现预测...
### Hadoop大数据常用命令知识点详解 #### 一、启动与关闭Hadoop集群 **启动Hadoop** - **步骤**: 进入HADOOP_HOME目录,然后执行`sh bin/start-all.sh`。 - **作用**: 启动Hadoop集群,包括DataNodes和NameNode。...
Hadoop 大数据就业面试题知识点总结 在这篇文章中,我们将总结 Hadoop 大数据就业面试题中的知识点,涵盖 Hadoop 的安装、配置、进程、调度器、MapReduce 编程语言等方面。 一、Hadoop 的安装和配置 在安装 ...
1、 load data local inpath '/input/files/tb.txt' overwrite into table tb; ...2 、hive –e 执行hql语句 -i 初始化参数,多用于加载UDF -f 执行hql文件,因为无法传参数,所以项目中基本不用
这可以通过`sudo useradd`命令完成,例如:`sudo useradd –m hadoop –s /bin/bash`,然后设置该用户的密码。 2. **SSH登录权限设置**: 为了在集群中的不同节点间无密码地执行命令,需要配置SSH免密登录。这可以...
该文档来自2013中国大数据技术大会上,Apache Tez Committer Bikas Saha讲师关于The Next Generation of Hadoop– Hadoop 2 and YARN主题的演讲。
【大数据技术Hadoop面试题解析】 1. HDFS的数据存储由Datanode负责,因此正确答案是c)Datanode。 2. HDFS中的block默认保存3份,以确保数据的容错性,正确答案是a)3份。 3. 通常与NameNode在一个节点启动的程序是...
【Hadoop与大数据技术大会2012PPT】是一个关于Hadoop和大数据技术的专题会议,该会议可能聚集了业界专家和学者,分享了他们在2012年关于这两个领域的最新研究、实践经验和未来发展趋势。这个压缩包包含了多个PDF文件...
大数据之Hadoop分布式集群初次启动 在当前信息技术迅猛发展的背景下,大数据技术成为推动社会进步的重要力量。其中,Hadoop作为大数据领域最为流行的开源框架之一,它通过提供分布式存储与计算解决方案,有效地处理...
我们可以使用 rm -rftmp/dfs/ 命令删除 master 节点 HDFS 目录中的数据,然后再执行格式化命令 hadoop namenode –format。格式化完成后,我们可以看到成功的提示信息。 3. 启动 Hadoop 格式化 HDFS 结束后,我们...
25. **hadoop dfsadmin –report命令**:该命令用于报告HDFS的总体状态,包括损坏块。选项正确。 26. **默认调度器策略**:Hadoop的默认调度器策略是FIFO(先进先出)。选项正确。 27. **RAID配置**:虽然配置RAID...
首先,需要删除 master、slave1、slave2 节点中的 HDFS 目录数据,然后执行格式化命令 hadoop namenode –format。格式化完成后,HDFS 将被初始化。 三、启动 Hadoop 启动 Hadoop 集群需要启动 HDFS 和 YARN 两个...
- 解压Hadoop文件:`tar –zxf /opt/software/hadoop-2.5.0.tar.gz –C /opt/moduels/` - 检查文件目录结构:`cd`进入相应目录。 - 确保有足够磁盘空间,使用`df –h`查看。 - 删除不必要的文件:如`rm –rf doc...
格式化NameNode是启动Hadoop集群的第一步,使用`hdfs namenode –format`命令。然后,通过`start-dfs.sh`脚本启动Hadoop DFS服务。在所有节点上运行`jps`命令,检查Hadoop进程是否正确启动。 为了验证Hadoop集群的...
Hadoop Overview HDFS Map-reduce Programming Paradigm Hadoop Map-reduce Job Scheduler Resources Hadoop, Why? 数据太多了,需要能存储、快速分析Pb级数据集的系统 单机的存储、IO、内存、CPU有限,需要可扩展...
3. 列出HDFS上的目录内容:Hadoop dfs –ls /hdfsDir 4. 删除HDFS下的文档:Hadoop dfs -rmr /hdfs 5. 查看HDFS下的文件内容:Hadoop dfs -cat /hdfs 6. 查看HDFS基本统计信息:Hadoop dfsadmin -report 7. 进入和...