大数据学习笔记（二）-hadoop安装【原创】

zhenggm

浏览: 215982 次
性别:
来自: 杭州

最近访客更多访客>>

makeshow

quewsb

zhaodengfeng1989

huangdj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据

hadoop 安装

Hadoop使用主/从（Master/Slave）架构，主要角色有NameNode，DataNode，secondary NameNode，JobTracker，TaskTracker组成。
其中NameNode，secondary NameNode，JobTracker运行在Master节点上，DataNode和TaskTracker运行在Slave节点上。

一、准备工作
    1.1 centOS6服务器3台
    master    192.168.3.140 (master.hadoop.zjportdns.gov.cn)
    node1     192.168.3.141 (node1.hadoop.zjportdns.gov.cn)
    node2     192.168.3.142 (node2.hadoop.zjportdns.gov.cn)
    因为之前配置了DNS,所以只要在DNS私服设置相关域名即可。
    1.2 下载安装包
    hadoop-2.7.3.tar.gz
    上传到三台服务器/usr/local/目录下
    1.3关闭防火墙
    service iptables stop
    1.4安装ntp服务
    使用 rpm -q ntp 查询是否已安装，如未安装需要安装(略)
    1.5安装JDK1.7 （略）
    1.6使用hostname 命令查询主机名，确保主机名能够被ping通。
    1.7ssh免密操作

ssh-keygen -t rsa

一路回车,在/root/.ssh/目录下生成密钥文件。

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

将 id_rsa.pub 和 authorized_keys 文件拷贝到 node1和node2服务器的/root/.ssh/目录下，并修改权限。

chmod -R 700 /root/.ssh

验证：在master机器上执行命令,不需要输入密码能登录到node1就成功了。

ssh node1.hadoop.zjportdns.gov.cn

二、安装hadoop(如无特殊说明，三台服务器都要操作)
2.1 解压

cd /usr/local
tar -xvf hadoop-2.7.3.tar.gz

2.2设置环境变量

echo "export HADOOP_HOME=/usr/local/hadoop-2.7.3" >> /etc/profile
echo -e "export PATH=\$PATH:\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin" >> /etc/profile
source /etc/profile
echo -e "export JAVA_HOME=/usr/local/jdk1.7.0_79" >> /usr/local/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
echo -e "export JAVA_HOME=/usr/local/jdk1.7.0_79" >> /usr/local/hadoop-2.7.3/etc/hadoop/yarn-env.sh

2.3查看hadoop版本

hadoop version

2.4创建工作目录

mkdir -p /hadoop/tmp
mkdir -p /hadoop/hdfs/data
mkdir -p /hadoop/hdfs/name

    2.5修改配置文件（/usr/local/hadoop-2.7.3/etc/hadoop/目录下）
    core-site.xml

<configuration>
<property>
                <name>hadoop.tmp.dir</name>
                <value>/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
</property>
<property>
                <name>fs.defaultFS</name>
                <value>hdfs://master.hadoop.zjportdns.gov.cn:9000</value>
</property>
<property>
                <name>io.file.buffer.size</name>
                <value>4096</value>
</property>
</configuration>

hdfs-site.xml

     <configuration>
  <property>
     <name>dfs.namenode.name.dir</name>
	 <value>file:/hadoop/hdfs/name</value>
  </property>
  <property>
     <name>dfs.datanode.data.dir</name>
	 <value>file:/hadoop/hdfs/data</value>
  </property>
  <property>
     <name>dfs.replication</name>
	 <value>2</value>
  </property>
  <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>master.hadoop.zjportdns.gov.cn:9001</value>
  </property>
  <property>
     <name>dfs.webhdfs.enabled</name>
	 <value>true</value>
  </property>
</configuration>

复制mapred-site.xml.template为mapred-site.xml,并修改mapred-site.xml

<configuration>
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
        <final>true</final>
    </property>
    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>master.hadoop.zjportdns.gov.cn:50030</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master.hadoop.zjportdns.gov.cn:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master.hadoop.zjportdns.gov.cn:19888</value>
    </property>
    <property>
         <name>mapred.job.tracker</name>
         <value>http://master.hadoop.zjportdns.gov.cn:9001</value>
</property>
</configuration>

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
         <name>yarn.resourcemanager.hostname</name>
         <value>master.hadoop.zjportdns.gov.cn</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master.hadoop.zjportdns.gov.cn:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master.hadoop.zjportdns.gov.cn:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master.hadoop.zjportdns.gov.cn:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master.hadoop.zjportdns.gov.cn:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master.hadoop.zjportdns.gov.cn:8088</value>
    </property>
</configuration>

slaves(去掉localhost,加上一下内容)

node1.hadoop.zjportdns.gov.cn
node2.hadoop.zjportdns.gov.cn

    2.6 启动（只在master机器执行）
    初次先格式化

      cd /usr/local/hadoop-2.7.3/bin/
      ./hadoop namenode -format

启动

      cd /usr/local/hadoop-2.7.3/sbin/
      ./start-all.sh

    2.7 验证
    在master上执行jps

在node1上执行jps

在node2上执行jps

浏览器访问master的50070，比如http://master.hadoop.zjportdns.gov.cn:50070 或8088端口

    2.8停止
    /usr/local/hadoop-2.7.3/sbin/stop-all.sh
三常见问题
    1. dataNode无法启动
    可能是中途修改了hostname等因素造成，需要将三台机器的初始化目录按2.4步骤清空，然后再执行格式化命令:./hadoop namenode -format。

查看图片附件

分享到：

大数据学习笔记（三）-hadoop demo 运行【 ... | 大数据学习笔记(一)【原创】

2017-02-20 16:29
浏览 772
评论(0)
分类:开源软件
查看更多

发表评论

文章已被作者锁定，不允许评论。

相关推荐

数据和计算科学知识库，分享机器学习系统、数据管理、数据科学原创内容。_lulaoshi.info.zip: 在学习过程中，通过阅读和讨论他人的文章、笔记和问题解答，学习者可以拓宽视野，加深理解，并在与他人的互动中提升自己的问题解决能力。知识库中可能还包含了论坛或者问答环节，让社区成员能够互相帮助，共同进步。...

Algorithms for Big Data Lecture Notes (UIUC CS598CSC): ### 大数据算法课程讲义（UIUC CS598CSC）概览与核心知识点 #### 一、课程介绍及管理事务本课程“大数据算法”（UIUC CS598CSC）由Chandra ...通过学习这些技术和理论，学生能够有效地解决现实世界中的大数据挑战。

数据库系统学习内容.pptx: 数据库系统学习内容.pptx

新员工网络培训手册.doc: 新员工网络培训手册.doc

ABB机器人二次开发C#实现数据读写与点位信息操作: 内容概要：本文详细介绍了如何使用C#语言对ABB机器人进行二次开发，重点讲解了通过C#读取和写入机器人点位信息的方法。文章从引言出发，逐步引导读者进入ABB机器人二次开发的世界，探讨了C#与ABB机器人之间的通信方式，具体展示了读取和写入点位信息的操作方法，并附有简单示例代码。此外，还分享了作者在实践中获得的经验和思考，强调了这一技术对于提升机器人性能、优化工作流程的重要意义。适合人群：对机器人技术感兴趣的研发人员，尤其是有一定C#编程基础并希望深入了解ABB机器人二次开发的技术爱好者。使用场景及目标：适用于希望通过C#语言对ABB机器人进行深度定制开发的场景，如工业自动化生产线上的机器人控制、路径规划等。目标是让读者掌握C#与ABB机器人通信的基本原理和技术细节，能够独立完成相关项目的开发。其他说明：文中提到的具体实现可能会随项目需求和环境配置有所变化，在实际操作时应注意选择合适的通信协议、正确处理数据格式转换及异常情况。

操作系统课程设计生产者消费者分析解析.doc: 操作系统课程设计生产者消费者分析解析.doc

文献检索及分析软件PublishorPerish.pptx: 文献检索及分析软件PublishorPerish.pptx

机器学习中遗传算法优化SVM-SVR参数c和g的技术解析与实现: 内容概要：本文详细介绍了如何利用遗传算法（Genetic Algorithm，GA）优化支持向量回归（Support Vector Regression，SVR）中的两个关键参数——惩罚参数c和核函数参数g。文中不仅解释了遗传算法和SVR的基本概念，还提供了具体的Python代码示例，展示了如何设置参数范围、定义适应度函数以及执行优化过程。此外，作者强调了该方法的简易性和实用性，指出只需替换数据即可快速上手。整个程序专为Windows系统设计，由作者本人编写，确保高质量和稳定运行。适合人群：对机器学习有一定了解的研究人员和技术爱好者，尤其是那些希望通过遗传算法优化SVR参数的人。使用场景及目标：① 需要在Windows环境下进行SVR参数优化的研究项目；② 希望通过遗传算法提高SVR模型性能的实际应用场景。其他说明：本文提供的代码和方法是由在读博士生亲自研究并编写，区别于网上的通用教程，具有更高的实用价值和独特性。

欧姆龙PLC NJ系列控制EtherCat总线驱动下的复杂电池生产线伺服控制系统。借助EtherCat连接众多终端及扫视枪的PLC集成自动化程序设计实践案例解析。: 内容概要：本文深入解析了欧姆龙NJ系列PLC通过EtherCat总线控制24个伺服轴的锂电池生产线自动化程序。主要内容涵盖PLC与威纶通触摸屏的配合使用，以及通过EtherCat总线连接多个伺服轴、扫描枪和远程IO终端的具体实现方法。文中详细介绍了伺服轴控制函数块（FB）的设计与调优，特别是针对不同机械特性的参数调整。同时探讨了扫描枪通信处理、远程IO站管理和触摸屏交互逻辑的最佳实践，强调了良好的注释习惯对维护和故障排除的重要性。适合人群：从事工业自动化领域的工程师和技术人员，尤其是有PLC编程经验并对EtherCat总线有一定了解的专业人士。使用场景及目标：适用于构建和优化复杂的工业自动化生产线，特别是涉及多轴运动控制的应用场景。目标是提高系统的稳定性和灵活性，确保各组件之间的高效协作。其他说明：文章提供了大量实用的技术细节和调试技巧，如轴控函数块的参数设置、扫描枪通信校验、远程IO站的状态管理以及触摸屏交互逻辑的优化。此外，还强调了注释对于系统维护的重要意义。

新编中文visualfoxpro61.0实用教程.pptx: 新编中文visualfoxpro61.0实用教程.pptx

口袋妖怪：白金光.zip: 口袋妖怪：白金光.zip

新理念外语网络教学平台第二版综合答案解析B2U6E.doc: 新理念外语网络教学平台第二版综合答案解析B2U6E.doc

基于LabVIEW与西门子PLC Smart 200的工业自动化温度压力控制系统: 内容概要：本文详细介绍了一个完整的工业自动化控制项目，涵盖了LabVIEW编程、西门子PLC Smart 200编程、OPC通讯及串口通讯技术的应用。项目硬件部分由研华工控机、西门子PLC Smart 200、三台检测仪器和扫描枪组成。软件方面，LabVIEW程序负责主界面设计、数据采集与处理、温度和压力曲线的绘制与展示，同时通过OPC协议与PLC进行通讯；PLC程序则负责接收指令、控制仪器参数设置及与仪器和扫描枪的串口通讯。此外，文中还提供了详细的电气原理图、元器件清单、程序注释和调试记录，确保系统的稳定性和可靠性。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对LabVIEW和PLC编程有一定基础的人群。使用场景及目标：适用于需要实现温度、压力控制及数据监控的工业应用场景，如制造业、化工行业等。目标是帮助工程师快速掌握LabVIEW与PLC的联合应用，提高工业控制系统的开发效率。其他说明：本文提供的项目资料为虚构内容，实际项目开发时需根据具体需求调整设计方案。

无线网络技术.pptx: 无线网络技术.pptx

西门子PLC动态密码程序解析：适用于1200与1500PLC的SCL编写催款程序及动态密保: 内容概要：本文详细介绍了西门子PLC动态密码程序的设计与实现，特别针对1200PLC和1500PLC型号。该程序主要用于催款业务场景，采用了SCL（结构化控制语言）进行编写，提供了动态密保功能，增强了系统安全性和用户账户的保密性。文章从程序的编写思路、操作步骤到实际应用场景进行了全面解析，强调了其在提升工作效率、减少人为错误以及保障企业信息安全方面的优势。文中还提到，该程序具有高度的通用性和灵活性，适用于不同的业务需求，并配有详细的视频讲解，帮助用户更好地理解和操作。适合人群：从事工业自动化控制领域的工程师和技术人员，尤其是熟悉或希望深入了解西门子PLC编程的人士。使用场景及目标：①需要在工业控制系统中实施催款程序的企业；②希望通过增强动态密保功能提升系统安全性的企业；③希望掌握SCL编程技巧并应用于实际项目中的技术人员。其他说明：该程序不仅提升了系统的安全性和可靠性，还在效率和准确性方面表现出色，为企业带来了更多商业机会和发展空间。

200smart电机控制程序：三相异步电动机多状态控制与操作详解 (05月23日): 内容概要：本文详细介绍了200smart电机控制程序的设计与实现，重点讲述了如何通过发送不同的控制字来控制三相异步电动机的六种状态（停止、正转、反转、加速、减速和复位）。这些状态被封装在子程序中，便于调用。文中还提供了一个详细的视频教程，帮助用户更好地理解和应用这些控制方法。此外，文章讨论了变频控制的具体实现方式及其重要性。适合人群：对电机控制有一定兴趣并希望深入了解200smart电机控制程序的技术人员和开发者。使用场景及目标：适用于需要精确控制三相异步电动机的应用场合，如工业自动化生产线、机器人等领域。目标是提高电机控制的精度和效率，简化程序调用流程。阅读建议：建议读者结合提供的视频教程进行学习，以便更直观地掌握电机控制程序的编写和调试技巧。

无线网络覆盖专项方案.docx: 无线网络覆盖专项方案.docx

无线支付变革移动互联网.pptx: 无线支付变革移动互联网.pptx

新版与HIS接口解决方案.doc: 新版与HIS接口解决方案.doc

COMSOL动态采空区三带模拟与动网格应用 (05月23日): 内容概要：本文详细介绍了利用COMSOL软件进行采空区三带（冒落带、裂隙带和弯曲带）动态变化的模拟方法和技术要点。重点讲解了动网格技术的应用，包括变形几何接口、位移函数设定、孔隙度变化模拟以及自适应时间步长器的配置。文中还分享了作者在实际项目中遇到的问题及解决方案，如网格质量控制、应变阈值调整、材料本构模型优化等，并强调了可视化展示技巧对成果汇报的重要性。适合人群：从事矿山安全评估、地质工程研究的专业技术人员，以及对COMSOL仿真感兴趣的科研工作者。使用场景及目标：适用于需要精确模拟地下采空区动态变化的研究项目，旨在提高矿山开采安全性评价的准确性，为工程决策提供科学依据。其他说明：文章不仅提供了理论指导，还结合具体案例分享了许多实用的经验教训，有助于读者避免常见错误并提升模拟效率。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论