Hadoop 快速入门

chenlb

浏览: 700185 次
性别:
来自: 杭州

最近访客更多访客>>

liyaofeng

shi007

jiduoduo

andreaguo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene

Hadoop SSH CentOS Apache Web

Required Software

Java^TM 1.5.x
ssh与sshd

如果没有安装请自行安装。我以CentOS 4.6为例。

下载hadoop，http://apache.mirror.phpchina.com/hadoop/core/ 我下载的是0.17.1版本。

解压hadoop-0.17.1.tar.gz，然后conf/hadoop-env.sh 设置JAVA_HOME ，我是可JAVA_HOME 去注释，值自己的路径。如：

export JAVA_HOME=/usr/java/jdk1.6.0_06

如果不设置启动后用不了。

先从简单开始。

1、Local (Standalone) Mode ，叫单机模式。

[chenlb@master hadoop-0.17.1]$ bin/hadoop jar hadoop-0.17.1-examples.jar grep conf output 'dfs[a-z.]+'

[chenlb@master hadoop-0.17.1]$ cat output/*

如果，正常可以看到内容。像这样。

3       dfs.
3       dfs.class
2       dfs.period
2       dfs.replication
...    ...

2、Pseudo-Distributed Mode，虚拟分布模式。
vi conf/hadoop-site.xml

<configuration>
<property>
        <name>fs.default.name</name>
        <value>hdfs://master:9000/</value>
</property>
<property>
        <name>mapred.job.tracker</name>
        <value>hdfs://master:9001/</value>
</property>
<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/chenlb/hadoop-0.17.1/tmp/</value>
</property>
</configuration>

在/etc/hosts里添加本机ip对应master，例如我的：172.16.249.210    master
保证可以无密码登录。请看那一篇文章：http://www.blogjava.net/chenlb/archive/2008/07/03/212293.html

用ssh localhost试一下是否免密码登录。

格式化分布式文件系统：

[chenlb@master hadoop-0.17.1]$ bin/hadoop namenode -format

启动Hadoop：

[chenlb@master hadoop-0.17.1]$ bin/start-all.sh

默认可以在${HADOOP_HOME}/logs里看到日志。

可以用web看浏览NameNode和JobTracker

NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/

把文件放到分布式文件系统里：

[chenlb@master hadoop-0.17.1]$ bin/hadoop dfs -put conf input

此时已经在分布文件系统里建立了input文件夹。而conf是本地的文件夹。

执行示例：

[chenlb@master hadoop-0.17.1]$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

这里input和output都是分布式文件系统的的文件夹，而且output在分布式文件系统里不存在，否则报错（也可以先删除它bin/badoop dfs -rmr output）。

耐心等待。结束后可以查看。

[chenlb@master hadoop-0.17.1]$ bin/hadoop dfs -get output output
[chenlb@master hadoop-0.17.1]$ cat output/*

也可以直接在分布式文件系统里查：

[chenlb@master hadoop-0.17.1]$ bin/hadoop dfs -cat output/*

成功运行后可以关闭它了：

[chenlb@master hadoop-0.17.1]$ bin/stop-all.sh

我在第2阶段，出了些问题：output已经存在，要先删除它（第二次运行前，可以不用output）。

下一篇讲：Fully-Distributed Mode

分享到：

Hadoop 快速入门(二)--Fully-Distributed ... | Linux 重启网卡

2008-08-11 15:28

浏览 2684

评论(0)

查看更多

评论

发表评论

 您还没有登录,请您登录后再发表评论

相关推荐

Hadoop快速入门介绍文档

### Hadoop快速入门介绍 #### 一、Hadoop简介 Hadoop是一款开源软件框架，用于分布式存储和处理大型数据集。它能够在廉价的商用硬件上运行，并且具有高可靠性和可扩展性。Hadoop的核心组件包括HDFS（Hadoop ...

hadoop快速入门.doc

### Hadoop快速入门知识点 #### 一、Hadoop概述与目的 - **目的**：本文档旨在帮助初学者快速掌握Hadoop的安装与基本使用，包括如何在Hadoop分布式文件系统（HDFS）上运行简单的示例程序或作业，使用户能够对Hadoop...

Hadoop快速入门

### Hadoop快速入门知识点梳理 #### 一、Hadoop概览与背景介绍 **1.1 何为Hadoop** - **定义**：Hadoop是一个由Apache基金会支持的开源软件框架，旨在通过集群中的普通商用硬件来处理大量数据集。 - **核心功能**...

Hadoop 快速入门及常见问题

这个"Hadoop 快速入门及常见问题"的资料集合可能是为了帮助初学者理解和应用Hadoop系统。首先，Hadoop的核心组件包括Hadoop Distributed File System (HDFS)和MapReduce。HDFS是分布式文件系统，它可以将大数据...

Hadoop 十分钟快速入门

在大数据处理领域，Hadoop是不可或缺的关键技术。本快速入门将带你深入了解Hadoop生态系统的...通过阅读“Hadoop快速入门.pdf”和“HDFS简介.pdf”，你可以快速掌握这些基本概念和实践技巧，进一步深入Hadoop的世界。

hadoop快速入门

### Hadoop快速入门知识点梳理 #### 一、Hadoop概览 **1.1 Hadoop定义** - **定义**：Hadoop是Apache基金会旗下的开源软件框架，主要用于在大规模集群环境中处理和存储海量数据。 - **核心特点**：通过提供分布式...

HADOOP快速入门及搭建集群环境

HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术，旨在处理大规模数据集，能够将大规模数据处理工作分配到多个计算机节点上，从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP，并搭建集群...

Hadoop快速入门——第四章、zookeeper安装包

总结来说，Hadoop快速入门的第四章主要介绍了Zookeeper的安装和配置，这对于理解和实践Hadoop分布式计算至关重要。通过学习Zookeeper，你可以更好地理解分布式系统的协调机制，提升你在大数据领域的专业能力。

Hadoop快速入门：新手学习必备文档

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。本文集的文档主要介绍Hadoop的一些概念介绍和操作教程，...

hadoop入门教程.pdf

【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架，主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4，这对于初学者来说是一个很好的起点。 **1. 安装...

Hadoop快速入门七步走

本文整理了网上搜集的Hadoop资料，共7个文件。学习顺序可以按照命名规则 STEP1__XXX --> STEP6__XXX; STEP7_XXX.pdf可以作为工具书参考。...适合对大数据感兴趣的初学者快速入门。欢迎大家提出宝贵意见或建议。

Hadoop快速入门[归纳].pdf

Hadoop是一种开源的大数据处理框架，由Apache基金会开发，它主要设计用于处理和存储海量数据。这个框架的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce，这两个部分是理解Hadoop工作原理的关键。 ...

solr 的 Distributed Searching 试用
2008-08-07 18:31 2090

一直想了解分布搜索与索引。Lucene有MultiSearch ...

Hadoop 快速入门(二)--Fully-Distributed Mode
2008-08-11 15:45 2041

上一篇记录了本机模式我虚拟分布模式。http://www.bl ...

solr1.3 的新功能
2008-07-08 10:20 2628

solr 1.3 还没有正式发布，在这里记录下从solr 1. ...

solr 分布式(复制)配置
2008-07-04 16:49 4307

    solr 分布式其实是分发，这概念像Mysql的复制。 ...

solr 术语
2008-06-26 11:52 2033

    Solr 涉及的术语，简单介绍下： Auto-war ...

Lucene简单使用
2008-03-09 00:47 1879

     最近看下Lucene的东西，把它写下来可以看下。Lu ...

solr json ajax
2008-03-28 17:33 3258

    用ajax去请求solr服务。返回json，然后解释。 ...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 快速入门

评论

发表评论

相关推荐

solr 的 Distributed Searching 试用

Hadoop 快速入门(二)--Fully-Distributed Mode

solr1.3 的新功能

solr 分布式(复制)配置

solr 术语

Lucene简单使用

solr json ajax

最近访客更多访客>>