概述
所有的Hadoop命令都通过bin/mapred脚本调用。在没有任何参数的情况下,运行mapred脚本将打印该命令描述。
使用:mapred [--config confdir] COMMAND
[hadoop@hadoopcluster78 bin]$ mapred
Usage: mapred [--config confdir] COMMAND
where COMMAND is one of:
pipes run a Pipes job
job manipulate MapReduce jobs
queue get information regarding JobQueues
classpath prints the class path needed for running
mapreduce subcommands
historyserver run job history servers as a standalone daemon
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
hsadmin job history server admin interface
Most commands print help when invoked w/o parameters.
用户命令
对于Hadoop集群用户很有用的命令:
archive
查看:Hadoop之命令指南
classpath
打印需要得到Hadoop的jar和所需要的lib包路径,hdfs,yarn脚本都有这个命令。
使用: mapred classpath
job
通过job命令和MapReduce任务交互。
使用:mapred job | [GENERIC_OPTIONS] | [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]]
| [-kill-task <task-id>] | [-fail-task <task-id>] | [-set-priority <job-id> <priority>]
参数选项
描述
-submitjob-file
|
提交一个job. |
-statusjob-id
|
打印map任务和reduce任务完成百分比和所有JOB的计数器。 |
-counterjob-id group-name counter-name
|
打印计数器的值。
|
-killjob-id
|
根据job-id杀掉指定job. |
-eventsjob-id from-event-# #-of-events
|
打印给力访问内jobtracker接受到的事件细节。(使用方法见示例) |
-history [all]jobOutputDir
|
打印JOB的细节,失败和杀掉原因的细节。更多的关于一个作业的细节比如:成功的任务和每个任务尝试等信息可以通过指定[all]选项查看。 |
-list [all] |
打印当前正在运行的JOB,如果加了all,则打印所有的JOB。 |
-kill-tasktask-id
|
Kill任务,杀掉的任务不记录失败重试的数量。 |
-fail-tasktask-id
|
Fail任务,杀掉的任务不记录失败重试的数量。
默认任务的尝试次数是4次超过四次则不尝试。那么如果使用fail-task命令fail同一个任务四次,这个任务将不会继续尝试,而且会导致整个JOB失败。
|
-set-priorityjob-id priority
|
改变JOB的优先级。允许的优先级有:VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW |
示例:
[hadoop@hadoopcluster78 bin]$ mapred job -events job_1437364567082_0109 0 100
15/08/13 15:10:53 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Task completion events for job_1437364567082_0109
Number of events (from 0) are: 1
SUCCEEDED attempt_1437364567082_0109_m_000016_0 http://hadoopcluster83:13562/tasklog?plaintext=true&attemptid=attempt_1437364567082_0109_m_000016_0
[hadoop@hadoopcluster78 bin]$ mapred job -kill-task attempt_1437364567082_0111_m_000000_4
15/08/13 15:51:25 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Killed task attempt_1437364567082_0111_m_000000_4
pipes
运行pipes JOB。关于pipe,查看:Hadoop pipes编程
Hadoop pipes允许C++程序员编写mapreduce程序。它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件。
Usage: mapred pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces
<num>]
参数选项
描述
-confpath
|
Job的配置文件路径。 |
-jobconfkey=value,key=value,
… |
增加/重载 JOB的配置。 |
-inputpath
|
输入路径 |
-outputpath
|
输出路径 |
-jarjar
file
|
JAR文件名 |
-inputformatclass
|
InputFormat类 |
-mapclass
|
Java
Map 类
|
-partitionerclass
|
Java
Partitioner |
-reduceclass
|
Java
Reduce 类 |
-writerclass
|
Java
RecordWriter |
-programexecutable
|
可执行的URI |
-reducesnum
|
reduce的数量 |
queue
该命令用于交互和查看Job Queue信息。
使用: mapred queue [-list] | [-info <job-queue-name> [-showJobs]] | [-showacls]
参数选项
描述
-list |
获取在系统配置的Job Queues列表。已经Job Queues的调度信息。 |
-infojob-queue-name[-showJobs] |
显示一个指定Job Queue的信息和它的调度信息。如果使用-showJobs选项,则显示当前正在运行的JOB列表。
|
-showacls |
显示队列名和允许当前用户对队列的相关操作。这个命令打印的命令是当前用户可以访问的。 |
示例:
[hadoop@hadoopcluster78 bin]$ mapred queue -list
15/08/13 14:25:30 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 47.5
[hadoop@hadoopcluster78 bin]$ mapred queue -info default
15/08/13 14:28:45 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5
[hadoop@hadoopcluster78 bin]$ mapred queue -info default -showJobs
15/08/13 14:29:08 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5
Total jobs:1
JobId State StartTime UserName Queue Priority UsedContainers RsvdContainers UsedMem RsvdMem NeededMem AM info
job_1437364567082_0107 RUNNING 1439447102615 root default NORMAL 28 0 29696M 0M 29696M http://hadoopcluster79:8088/proxy/application_1437364567082_0107/
[hadoop@hadoopcluster78 bin]$ mapred queue -showacls
15/08/13 14:31:44 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Queue acls for user : hadoop
Queue Operations
=====================
root ADMINISTER_QUEUE,SUBMIT_APPLICATIONS
default ADMINISTER_QUEUE,SUBMIT_APPLICATIONS
管理员命令
以下是对hadoop集群超级管理员很有用的命令。
historyserver
启动JobHistoryServer服务。
使用: mapred historyserver
也可以使用sbin/mr-jobhistory-daemon.sh start|stop historyserver来启动/停止JobHistoryServer。
hsadmin
运行hsadmin去执行JobHistoryServer管理命令。
Usage: mapred hsadmin [-refreshUserToGroupsMappings] | [-refreshSuperUserGroupsConfiguration] | [-refreshAdminAcls] | [-refreshLoadedJobCache] | [-refreshLogRetentionSettings] | [-refreshJobRetentionSettings] | [-getGroups [username]] | [-help [cmd]]
参数配置
描述
-refreshUserToGroupsMappings |
刷新用户-组的对应关系。 |
-refreshSuperUserGroupsConfiguration |
刷新超级用户代理组映射 |
-refreshAdminAcls |
刷新JobHistoryServer管理的ACL |
-refreshLoadedJobCache |
刷新JobHistoryServer加载JOB的缓存 |
-refreshJobRetentionSettings |
刷新Job histroy旗舰,job cleaner被设置。 |
-refreshLogRetentionSettings |
刷新日志保留周期和日志保留的检查间隔 |
-getGroups [username] |
获取这个用户名属于哪个组 |
-help [cmd] |
帮助 |
示例:
[hadoop@hadoopcluster78 bin]$ mapred hsadmin -getGroups hadoop
hadoop : clustergroup
分享到:
相关推荐
MapReduce 是 Apache Hadoop 的核心组件之一,它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例,它统计文本文件中每个单词出现的次数。在这个案例中,我们将深入探讨如何在 ...
(1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...
在大数据处理领域,Hadoop MapReduce是一个至关重要的组件,它为海量数据的并行处理提供了框架。本实战项目主要展示了如何使用Java编程语言操作Hadoop MapReduce来分析年度气象数据中的最低温度。以下是对这个实战...
Hadoop 执行 MapReduce 测试 Hadoop 是一个大数据处理框架,它提供了一个分布式计算模型,即 MapReduce。MapReduce 是一个编程模型,它将大规模数据处理任务分解成小规模的任务,然后将这些任务分布到多个节点上...
在大数据处理领域,Hadoop MapReduce是一个至关重要的组件,它为海量数据的并行处理提供了分布式计算框架。本文将深入探讨如何使用Java编程语言来操作Hadoop MapReduce进行基本实践,通过源码分析来理解其核心工作...
执行命令以在hadoop中执行mapreduce。 hadoop jar /Users/hello/Desktop/accessMR.jar accessMR.AccessMR /logs/access.log /user/output检查输出。 hadoop fs -cat /user/output/part-00000运行hadoop命令的快捷...
最后,使用Maven命令编译和打包项目,生成一个jar文件,通过Hadoop的`hadoop jar`命令提交到本地集群执行。 总结一下,这个项目涵盖了以下知识点: 1. Hadoop框架的基本概念,包括HDFS和MapReduce。 2. MyEclipse...
本文将详细阐述如何搭建Hadoop集群以及进行MapReduce程序的关键点个性化开发。 首先,我们来看任务1——Hadoop集群的部署。这一步至关重要,因为它为整个大数据处理系统提供了基础架构。在虚拟机中安装Ubuntu Kylin...
### Windows 下配置 Hadoop 和 MapReduce 的详细指南 #### 一、Cygwin 的安装与配置 为了在 Windows 操作系统上配置 Hadoop 和 MapReduce,通常的做法是通过 Cygwin 来模拟 Linux 环境。Cygwin 是一个在 Windows ...
### Hadoop MapReduce 教程知识点详解 #### 目的 本教程旨在向读者全面介绍Hadoop MapReduce框架的核心概念及其使用方法。通过本教程的学习,读者将掌握如何使用Hadoop MapReduce处理大规模数据集的基本技能。 ###...
在Hadoop的MapReduce任务中,有时需要使用C或C++等非Java语言,这是因为开发团队可能更熟悉这些语言,或者已有代码库是用这些语言编写的。为此,Hadoop提供了三种方法来实现这一目标:Hadoop Streaming、Hadoop ...
- **背景**: WordCount是最经典的MapReduce示例之一,用于统计文件中每个单词出现的次数。 - **步骤**: - 使用Java编写Mapper类,处理输入的文本行,提取单词并计数。 - 使用Java编写Reducer类,汇总来自Mapper的...
### Hadoop MapReduce知识点概述 #### 一、Hadoop MapReduce简介 Hadoop MapReduce是一种分布式数据处理模型,主要用于大规模数据集的并行处理。它包括两个主要阶段:Map(映射)和Reduce(归约)。MapReduce的...
### Hadoop集群配置及MapReduce开发手册知识点梳理 #### 一、Hadoop集群配置 **1.1 环境说明** - **操作系统**: CentOS 5 - **JDK版本**: Sun Java 6 - **SSH**: 已安装 - **Eclipse版本**: 3.4.2 (Linux版) - **...
文中没有详细说明如何运行作业,但在Hadoop MapReduce中,一般通过Hadoop命令行工具来提交作业,命令通常类似于“hadoop jar wc3.jar”。 整个过程大致如下: 1. 搭建Hadoop环境(以CDH5为基础)。 2. 编写或获取...
### 使用命令行编译打包运行自己...以上就是使用命令行编译打包运行自己的MapReduce程序的过程详解,包括了Hadoop 2.6.0版本的变化、编译打包流程、运行命令解析以及使用Eclipse进行开发的方法。希望对初学者有所帮助。
这里执行的命令是启动一个Hadoop MapReduce作业,使用的是名为“max.jar”的可执行JAR文件。这个JAR文件包含了我们编写的MapReduce程序,用于查找最高气温。执行命令时,'upload.MaxTemperature'是主类名,指示...
然后,通过Hadoop的`hadoop jar`命令将这个JAR文件提交到集群,指定输入文件和输出目录。Hadoop的分布式文件系统(HDFS)会自动处理文件的分发,MapReduce框架将根据配置运行Map和Reduce任务。 6. **Hadoop 2.2版本...