Hadoop2.5.2安装——伪分布式模式

eksliang

浏览: 601503 次
性别:
来自: 广州

最近访客更多访客>>

hanjiangit

gtsle

sshcainiao

yinzisheng

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop

hadoop伪分布式安装 hadoop

转载请出自出处：http://eksliang.iteye.com/blog/2191493

一、下载hadoop的的部署文件

我这里是使用当前的最高版本：2.5.2下载地址

http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.5.2/

部署hadoop伪分布式之前，请确保当前系统已经安装了jdk

二、新建hadoop用户

当然你也可以使用root用户直接干，所以这步不是必须的，但是还是建议这么干。

 useradd hadoop --新建hadoop用户
 passwd hadoop  --设置hadoop用户的密码

三、免密码ssh设置

切换到hadoop用户执行

 /usr/bin/ssh-keygen -t rsa  --执行完这句，按三次回车即可生成公钥与私钥
 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
 chmod 600 ~/.ssh/authorized_keys

验证hadoop用户的ssh免登录认证

ssh localhost

执行完后，没有提示输入密码，变切换到了hadoop用户的用户目录说明配置成功

四、安装Hadoop 2.5.2

1）将下载的hadoop-2.5.2.tar.gz安装包，解压到hadoop的用户目录（/home/hadoop）

[hadoop@localhost ~]$ tar -xzv -f hadoop-2.5.2.tar.gz

2）修改配置文件

hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点即NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml和etc/hadoop/hdfs-site.xml。

core-site.xml修改如下：

<configuration>
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://127.0.0.1:9000</value>
        </property> 
</configuration>

Hadoop自升级到2.x版本之后，有很多属性的名称已经被遗弃了，虽然这些被遗弃的属性名称目前还可以用，但是这里还是建议用新的属性名，主要遗弃的属性名称参考下面地址：http://www.iteblog.com/archives/923

（上面的fs.defaultFS在老版本中使用fs.default.name，现在还是可以用的，但是建议使用新的）

配置说明：添加hdfs的指定URL路径，由于是伪分布模式，所以配置的是本机IP ，可为真实Ip、localhost。

hdfs-site.xml修改如下：

<configuration>
    <property>
         <name>dfs.replication</name>
         <value>1</value>
    </property>
    <property>
       <name>dfs.namenode.name.dir</name>
       <value>file:/home/hadoop/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>file:/home/hadoop/dfs/data</value>
    </property>
</configuration>

配置说明：主要是对namenode 和 datanode 存储路径的设置。其实默认是存储在file://${hadoop.tmp.dir}/dfs/name和data 下的。所以这里也不需配置的。但默认的是临时文件，重启就没有了，所以我这里还是设置了专门的路径保存。

将mapred-site.xml.template重命名为mapred-site.xml，并添加如下内容

目的：告诉hadoop，MapReduce是运行在yarn这个框架上

<property>
       <name>mapreduce.framework.name</name>
        <value>yarn</value>
 </property>

yarn-site.xml

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

3）为hadoop指定jdk

修改etc/hadoop/hadoop-env.sh 文件,如下所示：

#export JAVA_HOME=${JAVA_HOME} --原来
export JAVA_HOME=/usr/local/jdk1.7.0_67 --修改后

这步网上很多教程没有，但是我试过，虽然配置了环境jdk的环境变量，但是在启动hadoop时，会提示找不到jdk，所以这里改成决定路径就可以了。

5）2.5.0后需要添加环境变量

在当前hadoop用户下面编辑$ vim ~/.bashrc添加如下代码

export HADOOP_HOME=/home/hadoop/hadoop-2.5.2
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

五、启动haoop

切换到该安装目录下，首先格式化 namenode

bin/hdfs namenode -format

开启NaneNode和DataNode守护进程

sbin/start-dfs.sh

成功启动后，可以通过命令jps看到启动了如下进程NameNode、DataNode和SecondaryNameNode。

[hadoop@localhost hadoop]$ jps
12321 DataNode
12210 NameNode
13210 Jps
12555 SecondaryNameNode

此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。如下所示：

结束Hadoop进程，则切换到haood的安装目录执行

sbin/stop-dfs.sh

温馨提示：下次再启动hadoop，无需进行HDFS的初始化，只需要运行 sbin/stop-dfs.sh 就可以！

启动yarn，切换到hadoop的部署目录执行

$ sbin/start-yarn.sh

再次查看使用jps查看java的后台进程可以看到如下所示：NodeManager跟ResourceManager进程

$ jps
27021 DataNode
27191 SecondaryNameNode
26899 NameNode
27367 ResourceManager
27487 NodeManager
28043 Jps

此时可以用过Web界面来查看NameNode运行状况，URL为 http://localhost:8088,如下图所示

停止yarn的命令如下

切换到部署hadoop的目录执行

$ sbin/stop-yarn.sh

六、运行实例

将文件上传到hdfs上面的实例如下：

切换到该安装目录下，建立要上传到hadoop的两个文件 test1.txt、test2.txt

mkdir input
cd input
echo "hello world" > test1.txt
echo "hello hadoop" > test2.txt

把input目录中的文件拷贝到hdfs上，并保存在in目录中

bin/hadoop dfs -put input /in

其中/in 中的/ 是hdfs下的目录，不加/ 上传将报错。

查看hdfs中的文件

bin/hadoop dfs -ls /in

同时也可以通过http://127.0.0.1:50070 查看节点下的文件

运行自带的workcount统计

bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar worddount  /in /out

运行结果如下：

参考资料：

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html

hadoop启动命令与停止命令参考

http://book.2cto.com/201401/39823.html

查看图片附件

分享到：

haoop shell命令 | Apache HttpClient使用详解

2015-03-11 15:37
浏览 3677
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop-2.5.2:1.HDFS源码分析，代码注释参考自《 Hadoop2.x HDFS源码剖析》: Hadoop是Apache软件基金会开发的一个开源分布式计算框架，主要由HDFS（Hadoop Distributed File System）和...对于想要从事大数据处理和分布式系统开发的工程师来说，研究Hadoop 2.5.2的HDFS源码是必不可少的一步。

云计算第二版: 6.5.2 在Windows系统中安装Hadoop 208 6.6 HDFS使用 215 6.6.1 HDFS 常用命令 215 6.6.2 HDFS 基准测试 219 6.7 HBase安装使用 219 6.7.1 HBase的安装配置 219 6.7.2 HBase的执行 220 6.7.3 Hbase编程实例 221 6.8 ...

storm 从零到精通非常实用的文件: Apache Storm 是一个开源的分布式实时计算系统，能够处理大量实时数据流。Storm 的设计目的是为了实现实时处理，它能够确保每个事件都能得到及时处理，并且支持多种编程语言。 **1.2 Storm的诞生** - **1.2.1 从...

AI从头到脚详解如何创建部署Azure Web App的OpenAI项目源码: 【AI】从头到脚详解如何创建部署Azure Web App的OpenAI项目源码

人脸识别_卷积神经网络_CNN_ORL数据库_身份验证_1741779511.zip: 人脸识别项目实战

人工智能-人脸识别代码: 人工智能-人脸识别代码，采用cnn的架构识别代码

汽车配件制造业企业信息化整体解决方案.pptx: 汽车配件制造业企业信息化整体解决方案

短期风速预测模型，IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是，网上复现评价指标：R方、MAE、MAPE、RMSE 附带测试数据集运行（风速数据）提示：在: 短期风速预测模型，IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是，网上复现评价指标：R方、MAE、MAPE、RMSE 附带测试数据集运行（风速数据）提示：在MATLAB2024a上测试正常 ,短期风速预测模型; IDBO-BiTCN-BiGRU-Multihead-Attention; 评价指标: R方、MAE、MAPE、RMSE; 复现; 测试数据集; MATLAB 2024a,短期风速预测模型：IDBO-BiTCN-BiGRU-Attention集成模型

手势识别_数据融合_运动融合帧_Pytorch实现_1741857761.zip: 手势识别项目实战

智慧园区IBMS可视化管理系统建设方案PPT(61页).pptx: 在智慧园区建设的浪潮中，一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点，通过信息化平台与智能硬件的深度融合，为园区带来前所未有的变革。首先，智慧园区综合解决方案以提升园区整体智能化水平为核心，打破了信息孤岛现象。通过构建统一的智能运营中心（IOC），采用1+N模式，即一个智能运营中心集成多个应用系统，实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”，利用大数据可视化技术，将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上，管理者可直观掌握园区运行状态，实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒，还大幅提升了管理效率，让园区管理更加精细化、智能化。更令人兴奋的是，该方案融入了诸多前沿科技，让智慧园区充满了未来感。例如，利用AI视频分析技术，智慧园区实现了对人脸、车辆、行为的智能识别与追踪，不仅极大提升了安防水平，还能为园区提供精准的人流分析、车辆管理等增值服务。同时，无人机巡查、巡逻机器人等智能设备的加入，让园区安全无死角，管理更轻松。特别是巡逻机器人，不仅能进行360度地面全天候巡检，还能自主绕障、充电，甚至具备火灾预警、空气质量检测等环境感知能力，成为了园区管理的得力助手。此外，通过构建高精度数字孪生系统，将园区现实场景与数字世界完美融合，管理者可借助VR/AR技术进行远程巡检、设备维护等操作，仿佛置身于一个虚拟与现实交织的智慧世界。最值得关注的是，智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程，实现降本增效。例如，智能库存管理、及时响应采购需求等举措，大幅减少了库存积压与浪费；而设备自动化与远程监控则降低了维修与人力成本。同时，借助大数据分析技术，园区可精准把握产业趋势，优化招商策略，提高入驻企业满意度与营收水平。此外，智慧园区的低碳节能设计，通过能源分析与精细化管理，实现了能耗的显著降低，为园区可持续发展奠定了坚实基础。总之，这一综合解决方案不仅让园区管理变得更加智慧、高效，更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境，是未来园区建设的必然趋势。

相亲交友系统源码 V10.5支持婚恋相亲M红娘系统.zip: 相亲交友系统源码 V10.5支持婚恋相亲、媒婆返利、红娘系统、商城系统等等这款交友系统功能太多了，适合婚恋相亲，还有媒婆婚庆等等支持 PC和 H5还有小程序，可封装红年、APP，里面带安装教程

单片机也能玩双核之你想不到c技巧系列-嵌入式实战（资料+视频教程）: 本资源《单片机也能玩双核之你想不到的C技巧系列——嵌入式实战》涵盖双核单片机开发、C语言高级技巧、嵌入式系统优化等核心内容，结合实战案例与视频教程，帮助开发者深入理解并掌握高效编程技巧。适用人群：适合嵌入式开发工程师、单片机开发者、电子信息相关专业学生，以及希望提升 C语言编程能力和嵌入式项目经验的技术人员。能学到什么：双核单片机开发思路，提高并行处理能力。 C语言高级技巧，提升代码优化与执行效率。嵌入式系统调试方法，掌握实际项目中的调试策略。实战案例解析，学习如何在实际工程中应用双核技术。阅读建议：建议先学习基础知识，再结合示例代码与视频教程进行实操，重点关注代码优化、调试技巧与双核应用模式，通过实战演练提高嵌入式开发能力。

计算机视觉_OpenCV_人脸识别_成本节约检测方案_1741779495.zip: 人脸识别项目源码实战

`机器学习_深度学习_Keras_教程用途`.zip: 人脸识别项目源码实战

地铁网络_Dijkstra_最短路径_查询工具_1741862725.zip: c语言学习

红外光伏缺陷目标检测模型，YOLOv8模型基于红外光伏缺陷目标检测数据集训练，做了必要的数据增强处理，以达到缺陷类别间的平衡可检测大面积热斑，单一热斑，二极管短路和异常低温四类缺陷测试集指标如: 红外光伏缺陷目标检测模型，YOLOv8模型基于红外光伏缺陷目标检测数据集训练，做了必要的数据增强处理，以达到缺陷类别间的平衡可检测大面积热斑，单一热斑，二极管短路和异常低温四类缺陷测试集指标如图所示 ,核心关键词：红外光伏缺陷目标检测模型; YOLOv8模型; 数据增强处理; 缺陷类别平衡; 大面积热斑; 单一热斑; 二极管短路; 异常低温。,基于YOLOv8的红外光伏缺陷检测模型

基于PLC的自动浇花控制系统西门子1200PLC博途仿真，提供HMI画面，接线图，IO分配表，演示视频，简单讲解视频博图15.1及以上版本均可使用 ,核心关键词： PLC自动浇花控制系统; 西: 基于PLC的自动浇花控制系统西门子1200PLC博途仿真，提供HMI画面，接线图，IO分配表，演示视频，简单讲解视频博图15.1及以上版本均可使用 ,核心关键词： PLC自动浇花控制系统; 西门子1200PLC博途仿真; HMI画面; 接线图; IO分配表; 演示视频; 简单讲解视频; 博图15.1及以上版本。,基于PLC的自动浇花系统：西门子1200PLC博途仿真实践教程

智慧园区标准化综合解决方案PPT(60页).pptx: 在智慧园区建设的浪潮中，一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点，通过信息化平台与智能硬件的深度融合，为园区带来前所未有的变革。首先，智慧园区综合解决方案以提升园区整体智能化水平为核心，打破了信息孤岛现象。通过构建统一的智能运营中心（IOC），采用1+N模式，即一个智能运营中心集成多个应用系统，实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”，利用大数据可视化技术，将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上，管理者可直观掌握园区运行状态，实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒，还大幅提升了管理效率，让园区管理更加精细化、智能化。更令人兴奋的是，该方案融入了诸多前沿科技，让智慧园区充满了未来感。例如，利用AI视频分析技术，智慧园区实现了对人脸、车辆、行为的智能识别与追踪，不仅极大提升了安防水平，还能为园区提供精准的人流分析、车辆管理等增值服务。同时，无人机巡查、巡逻机器人等智能设备的加入，让园区安全无死角，管理更轻松。特别是巡逻机器人，不仅能进行360度地面全天候巡检，还能自主绕障、充电，甚至具备火灾预警、空气质量检测等环境感知能力，成为了园区管理的得力助手。此外，通过构建高精度数字孪生系统，将园区现实场景与数字世界完美融合，管理者可借助VR/AR技术进行远程巡检、设备维护等操作，仿佛置身于一个虚拟与现实交织的智慧世界。最值得关注的是，智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程，实现降本增效。例如，智能库存管理、及时响应采购需求等举措，大幅减少了库存积压与浪费；而设备自动化与远程监控则降低了维修与人力成本。同时，借助大数据分析技术，园区可精准把握产业趋势，优化招商策略，提高入驻企业满意度与营收水平。此外，智慧园区的低碳节能设计，通过能源分析与精细化管理，实现了能耗的显著降低，为园区可持续发展奠定了坚实基础。总之，这一综合解决方案不仅让园区管理变得更加智慧、高效，更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境，是未来园区建设的必然趋势。

大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案.pptx: 大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案

基于STM32的水质浊度检测仪设计与实现（详细设计说明书+ 10008-基于STM32的水质浊度检测仪设计与实现（详细设计说明书+原理图PCB工程+源码工程+实物照片）本次设计是设计一款水质检: 基于STM32的水质浊度检测仪设计与实现（详细设计说明书+ 10008-基于STM32的水质浊度检测仪设计与实现（详细设计说明书+原理图PCB工程+源码工程+实物照片）本次设计是设计一款水质检测设备，实现温度检查、水质检测的功能，将检测到的数据显示到显示器中，并实时记录系统的参数本次系统需要对温度检测，使用的传感器为DS18B20，通过单总线的方式来完成系统温度检测使用水质检测模块检查水的质量通过传感器检测到的数据计算后的值实时刷新到显示器中，主要的功能包括以下几点： ①可以对温度实时检测； ②可以对水质实际值实时检测； ③水质浑浊预警主要特点： 1．以STM32单片机为核心，配合水质模块； 2．主要完成系统的功能控制、状态显示、信息检测以及报警硬件组建所单片机和传感器等元器件的选择； 3．完成系统控制的软件设计编程； 4．实现对水质检测、温度检查、预警的功能内容包含： 1、原理图工程 2、PCB工程 3、源码工程 4、实物照片 5、详细介绍说明书-22531字 6、实物照片 7、浊度传感器资料

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论