`
lteyeivan
  • 浏览: 14010 次
社区版块
存档分类
最新评论

Hadoop学习文档

    博客分类:
  • HDFS
阅读更多
(1)http://hadoop.apache.org/common/docs/r0.19.2/cn/
(2)以下内容转自百度文库:hadoop基本操作指令

在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。

假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。

启动与关闭
启动Hadoop
1.        进入HADOOP_HOME目录。

2.        执行sh bin/start-all.sh

关闭Hadoop
1.        进入HADOOP_HOME目录。

2.        执行sh bin/stop-all.sh

文件操作
Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。

查看文件列表
查看hdfs中/user/admin/aaron目录下的文件。

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs -ls /user/admin/aaron

这样,我们就找到了hdfs中/user/admin/aaron目录下的文件了。

我们也可以列出hdfs中/user/admin/aaron目录下的所有文件(包括子目录下的文件)。

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs -lsr /user/admin/aaron

创建文件目录
查看hdfs中/user/admin/aaron目录下再新建一个叫做newDir的新目录。

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs -mkdir /user/admin/aaron/newDir

删除文件
删除hdfs中/user/admin/aaron目录下一个名叫needDelete的文件

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs -rm /user/admin/aaron/needDelete

删除hdfs中/user/admin/aaron目录以及该目录下的所有文件

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs -rmr /user/admin/aaron

上传文件
上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/aaron目录下

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs –put /home/admin/newFile /user/admin/aaron/

下载文件
下载hdfs中/user/admin/aaron目录下的newFile文件到本机/home/admin/newFile中

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs –get /user/admin/aaron/newFile /home/admin/newFile

查看文件
我们可以直接在hdfs中直接查看文件,功能与类是cat类似

查看hdfs中/user/admin/aaron目录下的newFile文件

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop fs –cat /home/admin/newFile

MapReduce Job操作
提交MapReduce Job
原则上说,Hadoop所有的MapReduce Job都是一个jar包。

运行一个/home/admin/hadoop/job.jar的MapReduce Job

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs]

杀死某个正在运行的Job
假设Job_Id为:job_201005310937_0053

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop job -kill job_201005310937_0053

更多Hadoop的命令
上面介绍的这些Hadoop的操作命令是我们最常用的。如果你希望了解更多,可以按照如下的方式获取命令的说明信息。

1.        进入HADOOP_HOME目录。

2.        执行sh bin/hadoop

我们可以看到更多命令的说明信息:

Usage: hadoop [--config confdir] COMMAND

where COMMAND is one of:

  namenode -format    format the DFS filesystem

  secondarynamenode    run the DFS secondary namenode

  namenode            run the DFS namenode

  datanode            run a DFS datanode

  dfsadmin            run a DFS admin client

  fsck                run a DFS filesystem checking utility

  fs                  run a generic filesystem user client

  balancer            run a cluster balancing utility

  jobtracker          run the MapReduce job Tracker node

  pipes                run a Pipes job

  tasktracker          run a MapReduce task Tracker node

  job                  manipulate MapReduce jobs

  queue                get information regarding JobQueues

  version              print the version

  jar <jar>            run a jar file

  distcp <srcurl> <desturl> copy file or directories recursively

  archive -archiveName NAME <src>* <dest> create a hadoop archive

  daemonlog            get/set the log level for each daemon

or

  CLASSNAME            run the class named CLASSNAME

Most commands print help when invoked w/o parameters.
分享到:
评论

相关推荐

    Hadoop学习文档.pdf

    根据提供的文件信息,以下是一些Hadoop学习文档中的知识点: 云计算技术 1. 结构化数据与非结构化数据:介绍数据的类型,强调云计算需要处理的不仅仅是结构化数据,还包括大量的非结构化数据。 2. 云计算技术:讲解...

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...

    hadoop入门学习文档

    ### Hadoop 入门学习知识点概览 ...以上是对 Hadoop 入门学习文档中提到的知识点的详细阐述,希望能帮助读者全面了解 Hadoop 的背景、核心组件、应用场景以及其在大数据处理和云计算领域的重要地位。

    hadoop学习整理的文档

    【标题】:“Hadoop学习整理的文档” 【文档概述】: Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要用于处理和存储大规模数据。这个文档集合可能是针对Hadoop初学者或者希望深入理解Hadoop生态系统...

    hadoop学习文档

    ### Hadoop学习文档知识点概述 #### 一、Hadoop简介与环境配置 - **环境配置**: - **IP配置**:确保Windows主机能够通过网络Ping通安装了Hadoop的虚拟机是搭建Hadoop集群环境的第一步。这涉及到正确配置虚拟机的...

    Hadoop的学习(入门).docx

    【Hadoop学习(入门)】 Hadoop是大数据领域的一个核心框架,主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成,用于处理和存储海量数据。它是一个开源项目,由Apache软件基金会开发,旨在提供...

    Hadoop学习文档笔记,基本原理 HDFS

    在IT领域,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。它的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce计算模型。本文将深入探讨HDFS的基本原理和操作,以及如何通过Java API进行文件...

    Hadoop 官方文档(中文版)

    这个“Hadoop 官方文档(中文版)”提供了全面的指导,涵盖了从初学者到高级用户的各个层面。下面将详细阐述文档中可能涉及的主要知识点。 1. **Hadoop 快速入门**: - Hadoop 的核心组件:包括HDFS(Hadoop 分布式...

    光环大数据培训hadoop体系学习文档

    光环大数据培训的Hadoop体系学习文档是一份珍贵的学习资源,主要...通过这份光环大数据培训的Hadoop学习文档,你可以深入理解大数据处理的基础,提升自己在大数据领域的专业技能,为从事大数据相关工作打下坚实基础。

    hadoop官方文档中文档

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的出现为大数据处理提供了高效、可靠且可扩展的解决...这份文档对于学习和掌握Hadoop技术至关重要,无论你是初学者还是有经验的开发人员,都能从中获益匪浅。

    hadoop中文文档

    9. **Hadoop命令行工具**:学习使用Hadoop的命令行工具至关重要,如hdfs dfs命令用于与HDFS交互,hadoop jar用于运行MapReduce作业,hadoop fsck检查HDFS的健康状况等。 10. **Hadoop编程模型**:开发者可以使用...

    hadoop 2.5 文档

    综上所述,《hadoop 2.5 文档》涵盖了Hadoop的核心组件、编程接口、高级特性以及开发调试工具等多个方面,对于Hadoop开发人员来说是一份全面的学习资料。通过深入理解和掌握这些知识点,开发者能够更好地利用Hadoop...

    Hadoop2.7.1中文文档

    这个压缩包文件包含的是Hadoop2.7.1的中文文档,对于学习和理解Hadoop的运作机制、配置以及使用方法有着极大的帮助。 Hadoop的核心由两个主要组件组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是...

    hadoop1.0帮助文档

    最新hadoop1.0帮助文档,学习hadoop必备

    Hadoop API帮助文档

    Hadoop API帮助文档,学习Nutch和Hadoop必备

    Hadoop权威指南-Hadoop中文文档-第三版本

    这份中文文档为广大的Hadoop学习者提供了宝贵的资源,旨在帮助读者理解和掌握分布式存储与计算的基础知识,以及如何在实际项目中有效利用Hadoop。 Hadoop是Apache软件基金会开发的一个开源框架,主要设计用于处理和...

Global site tag (gtag.js) - Google Analytics