`
ztianlong
  • 浏览: 66708 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop学习笔记<二>----hadoop集群环境的配置

 
阅读更多

主要步骤请参考 http://dngood.blog.51cto.com/446195/775368

里边的步骤都比较详细(也就是如何去配置hadoop环境 ,即 how)。

 

这里我着重记录下为什么要这样做(也就是why)

 

操作系统环境:

 linux (GNU/Linux是hadoop产品开发和运行的平台。)

完全分布式模式只能布置在linux下(unix未测试,hadoop官方也未给出明确说明。 windows目前来说只能作为一个开发平台,而不能作为一个运行平台)

 

 

所需软件

1.java 1.5.x,必须安装,建议选择Sun公司发行的Java版本。(这个也不多说了,hadoop的运行环境)

2.ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。(比如 启动hadoop集群环境时候,start-all.sh 会调用其他机器上的启动脚本,这时候需要权限之类的。 可以简单理解为配置好了ssh,权限这些事情就交给ssh做了)

3.hadoop  这个...不用多说了

 

 

java 和 ssh 的安装这里就不再多说,网上很容易搜到。

ssh的配置 文中讲的也是比较清楚的,如果想更多的了解ssh,可以参考原文作者给出的ssh连接。http://dngood.blog.51cto.com/446195/724207

 

配置 host和主机名

修改/etc/hosts文件。给集群的机器ip地址起一个别名,在下边的配置文件中(如原文中的 四 hadoop 配置  一章)更容易使用和理解。

 

linux下创建hadoop用户

理论上不创建也可以,但是还是很建议单独创建hadoop用户,便于管理。

 

 

配置 hadoop配置文件时候的注意事项:

    在修改配置文件时候,value里边的 namenode之类的字段,是要在/etc/hosts 里边的存在的host,不然可能找不到结点。

    <name>mapred.job.tracker</name>

    <value>namenode:9001</value>

 

修改 hadoop/conf/core-site.xml 时候的注意事项:

要配置hadoop.tmp.dir,不然重启机器之后,会造成http://yourNameNode:50070/dfshealth.jsp 不能访问的问题。(log会报 INFO org.apache.hadoop.ipc.RPC: Server at localhost/127.0.0.1:9000 not available yet, Zzzzz... )

<property>

    <name>fs.default.name</name>

    <value>hdfs://localhost:9000</value>

</property>

 

<property>

    <name>hadoop.tmp.dir</name>

    <value>/home/hadoop/hadooptmp</value>

    <description>A base for other temporary directories.</description>

</property> 

 

远程拷贝的命令:scp

eg:scp -r hadoop hadoop@datanode1:/home/hadoop/

 

启动hadoop集群环境后,测试结点是否正常工作的命令: jps

 jps位于jdk的bin目录下,其作用是显示当前系统的java进程情况,及其id号。

PS:用了几天才发现,这些都是很入门的配置,too young,too simple。路还很长...

 

 

 

==============================================================

 

我也是刚开始学习hadoop,学习的资料来自于 《hadoop实战》和《hadoop权威指南》 以及网上搜到的一些资料。

这些笔记是学习的过程中自己积累的,然后用更加浅显的话表述出来,希望也能帮助到初学者。当然里边会有很多错误,也希望大家指出,我会认真改正,谢谢

 

 

 

 

分享到:
评论

相关推荐

    大数据开发中的Sqoop学习笔记(自己整理版).pdf

    Sqoop 的 `import` 命令用于从关系型数据库导入数据到Hadoop集群。例如,将MySQL的数据导入到HDFS,可使用如下命令: ```bash sqoop import --connect jdbc:mysql://&lt;hostname&gt;:&lt;port&gt;/&lt;database&gt; --table ...

    VMware下完全分布式Hadoop集群安装笔记

    ### VMware下完全分布式Hadoop集群安装笔记 #### 一、准备工作与环境搭建 **1. 安装VMware** 在开始之前,首先需要一个虚拟化平台来模拟多台计算机之间的交互,这里选择的是VMware。根据您的操作系统选择合适的...

    hadoop集群安装笔记

    Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境包括Java Development Kit...

    最新Hadoop学习笔记

    综上所述,这份“最新Hadoop学习笔记”涵盖了从环境搭建到项目实践的全过程,旨在帮助读者全面掌握Hadoop的核心技术和应用方式。通过阅读和实践,你将能够熟练地在大规模数据集上进行高效计算和存储。

    配置xen环境及hadoop集群环境的学习笔记

    ### 配置XEN环境及Hadoop集群环境学习笔记 #### XEN虚拟机的安装配置 **XEN** 是一种开源虚拟化技术,允许在一台物理机器上运行多个操作系统实例,这些实例通常被称为“域”(Domains)。XEN 的安装配置涉及到安装...

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    1. "ssh免登录.jpg" - 这可能是关于如何配置SSH免密登录的教程,这对于在分布式环境中管理Hadoop集群是必要的,可以简化节点间的通信。 2. "hadoop-shell.pdf" - 这可能涵盖使用Hadoop Shell命令行工具进行数据操作...

    初识hadoop之hadoop 安装

    提供的文档`hadoop学习笔记.doc`可能包含了Hadoop的基础概念、操作指南、实战案例等,建议仔细阅读以深入了解Hadoop的用法和原理。 至此,你已经成功安装了Hadoop,并且具备了运行一个基本Hadoop集群的基础。接...

    传智黑马赵星老师hadoop七天课程资料笔记-第七天(全)

    1. a4.conf, a2.conf, a1.conf, a3.conf:这些可能是Hadoop配置文件,可能包含了Hadoop集群的设置信息,如HDFS的配置、MapReduce的参数调整等,用于优化Hadoop环境的性能。 2. daily:可能是课程的每日总结或作业,...

    HADOOP学习笔记

    【HADOOP学习笔记】 Hadoop是Apache基金会开发的一个开源分布式计算框架,是云计算领域的重要组成部分,尤其在大数据处理方面有着广泛的应用。本学习笔记将深入探讨Hadoop的核心组件、架构以及如何搭建云计算平台。...

    传智黑马赵星老师hadoop七天课程资料笔记-第二天(全)

    标题和描述中提到的是“传智黑马赵星老师hadoop七天课程资料笔记-第二天(全)”,这表明这是一个关于Hadoop技术的深度学习资源,主要聚焦于赵星老师的Hadoop教学课程中的第二天内容。通常,这样的课程会涵盖Hadoop的...

    大数据系统学习笔记-0002 - Hadoop集群搭建 - 资源包

    大数据系统学习笔记-0002 - Hadoop集群搭建 - 资源包 资源列表: hadoop-2.7.4.tar.gz jdk-8u301-linux-x64.tar.gz zookeeper-3.4.10.tar.gz

    3.Hadoop学习笔记.pdf

    Hadoop集群启动时,NameNode首先格式化文件系统,然后DataNode向NameNode注册,开始提供数据服务。 Hadoop的基本原理包括: - 文件以块的形式存储在DataNode上,并且有副本存在,副本数可以在HDFS创建时指定。 - ...

    hadoop学习笔记(一、hadoop集群环境搭建).docx

    在本文中,我们将详细介绍如何搭建一个Hadoop集群环境,包括必要的步骤和配置。首先,我们需要准备以下资源:虚拟机、Redhat 6.5操作系统、Hadoop 1.0.3版本以及JDK 1.6。 ### 1. 基础环境设置 在开始搭建Hadoop...

    Hadoop学习笔记.pdf

    Hadoop集群可以轻松扩展到PB级别的数据存储和处理能力,这使得Hadoop非常适合在需要处理大量数据的场合中使用。但是,Hadoop的可扩展性并不意味着它适合所有场景,由于其架构特点,它更适合于批处理,而非实时处理。...

    hadoop学习笔记.rar

    二、Hadoop学习笔记之五:使用Eclipse插件 Eclipse插件是开发Hadoop应用的重要工具,它提供了集成的开发环境,使得开发者可以更方便地编写、调试和运行Hadoop程序。通过插件,用户可以创建Hadoop项目,编写MapReduce...

    Hadoop学习笔记整理

    "Hadoop学习笔记整理" 本篇笔记对Hadoop进行了系统的介绍和总结,从大数据的基本流程到Hadoop的发展史、特性、集群整体概述、配置文件、HDFS分布式文件系统等方面都进行了详细的讲解。 一、大数据分析的基本流程 ...

    Hadoop学习笔记

    这个“Hadoop学习笔记”涵盖了Hadoop生态系统中的核心组件,包括HDFS(Hadoop分布式文件系统)、HBase(一个分布式、列式存储的数据库)、Hive(数据仓库工具)以及Spark(一个快速、通用且可扩展的数据处理引擎)。...

    传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)

    2. **日志格式.jpg** - 日志对于诊断Hadoop集群的问题至关重要,这张图片可能展示了Hadoop系统中的典型日志格式,包括MapReduce任务的执行日志,有助于理解任务状态和性能分析。 3. **序列化.png** - Hadoop中的...

Global site tag (gtag.js) - Google Analytics