`
gushengchang
  • 浏览: 29144 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop的一些使用方法

 
阅读更多
命令行查看当前正在执行的job id:
[hadoop@compute-63-9 ~]$ /hadoop/hadoop_home/bin/hadoop job -jt compute-63-0:9001 -list all |awk '{ if($2==1) print $1 }'
job_201203311041_0041



设置副本数目
hadoop fs -setrep [-R] [-w] <副本個數> <HDFS檔案名稱>





设置map输出压缩:
 
  conf.set("mapred.compress.map.output", "true")
  conf.set("mapred.output.compression.type", "BLOCK"); 
  conf.set("mapred.map.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec");


存储写满了。
org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for taskTracker/jobcache/job_201108311619_0703/attempt_201108311619_0703_m_000076_0/output/spill0.out

Error: java.io.IOException: No space left on device

java.io.IOException: Task: attempt_201108311619_0703_r_000002_0 - The reduce copier failed


hadoop目的地启动distcp数据传输:
hadoop distcp hdfs://172.30.4.50:9000/user/hadoop/lisk/mouse/str/ hdfs://hs14:9000/user/hadoop/gusc/new_contig
或者
hadoop distcp hdfs://172.30.4.50:9000/user/hadoop/lisk/mouse/id /user/hadoop/gusc


Map与Reduce之间的格式要注意,如果没写Map的输出格式,则默认按照Reduce的处理。如果Map和Reduce直接数据格式不一致,则需要指明:
job.setMapOutputKeyClass(Class<?> theClass)
job.setMapOutputValueClass(Class<?> theClass)
job.setOutputKeyClass(Class<?> theClass)
job.setOutputValueClass(Class<?> theClass)


Reducer的类型没对应上有时候并不会出错,得仔细检查。如下所示,这时候会调用默认的reducer来执行。
  public static class Reduce extends Reducer<LongWritable, Text, Text, Text> {
    public void reduce(Text key, Iterable<Text> values, Context context)
        throws IOException, InterruptedException {
        }
  }
分享到:
评论

相关推荐

    Hadoop使用常见问题以及解决方法

    但是在使用 Hadoop 时,经常会遇到一些常见的问题,本文将对这些问题进行总结和解决。 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES 在 Hadoop 中,Shuffle Error 是一个常见的问题,主要是由于系统默认的...

    hadoop单机配置方法

    使用`sudo tar xzf hadoop-0.20.2.tar.gz`命令解压缩Hadoop软件包。 3. **更改文件所有者** 执行`sudo chown -R dm:dm hadoop-0.20.2`,将解压后的Hadoop目录的所有权更改为之前创建的Hadoop用户。 #### 五、...

    hadoop出错解决方法

    但是在使用 Hadoop 过程中,我们经常会遇到一些错误和问题,本文将为您提供一些常见的 Hadoop 故障解决方法。 一、Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 这个错误是由于系统默认的打开...

    hadoop常见问题及解决方法

    Hadoop是大数据处理的重要工具,但是在安装和使用Hadoop时,可能会出现一些常见的问题,这些问题可能会导致Hadoop无法正常工作,或者无法达到预期的性能。下面是Hadoop常见的问题及解决方法: 1、NameNode启动时...

    Hadoop使用常见问题以及解决方法.doc

    Hadoop使用常见问题以及解决方法.doc Hadoop使用常见问题以及解决方法.doc

    Hadoop 2.0安装部署方法

    Hadoop是一个开源的分布式存储和计算框架,它由Apache软件基金会支持,并允许使用简单的编程模型来跨计算机集群存储和处理大数据。Hadoop 2.0作为该框架的一个重要版本,引入了YARN(Yet Another Resource ...

    Google +Hadoop使用编程

    Avro的设计目标是为Hadoop提供更快、更紧凑的数据序列化方法,特别是在RPC场景中。由于其高性能和灵活性,Avro已经成为Hadoop生态系统中广泛使用的组件之一。 #### Hadoop Common:核心组件 **Hadoop Common** ...

    hadoop2.6.5中winutils+hadoop

    然而,随着Hadoop的普及,开发者们也找到了在Windows上搭建和测试Hadoop环境的方法。标题提到的"hadop2.6.5中winutils+hadoop"就是解决这个问题的关键组件。 `winutils.exe`是Hadoop在Windows环境下运行的一个必备...

    【推荐】大数据时代,你不得不知的Hadoop使用技巧

    Hadoop允许用户轻松地在分布式环境中开发和运行应用程序,但要想掌握其使用技巧,对于初学者而言并不是一件容易的事情。以下知识点将帮助你更快地了解Hadoop,以及如何在不同的操作系统上安装和配置Hadoop集群。 ...

    java下hadoop开发使用jar包

    在这个过程中,开发者通常需要引入一系列的Hadoop库,这些库包含了执行Hadoop任务所需的类和方法。以下将详细阐述Hadoop开发中jar包的使用及其重要性。 首先,Hadoop的核心组件包括HDFS(Hadoop Distributed File ...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个...理解它们的作用和配置方法对于在Windows上部署和管理Hadoop集群至关重要。这两个文件的提供使得开发者和数据工程师能够在Windows平台上充分利用Hadoop的强大功能,进行大数据分析和处理。

    hadoop集群遇到的问题及其解决方法

    ### Hadoop集群遇到的问题及其解决方法 #### 异常一:DataNode无法连接到NameNode **问题描述:** 在Hadoop集群部署过程中,经常会出现DataNode无法成功连接到NameNode的情况,导致集群无法正常启动。 **原因分析...

    hadoop环境缺少的hadoop.dll ,winutils.exe包

    总之,`hadoop.dll`和`winutils.exe`是Hadoop在Windows环境下运行的关键组件,确保它们正确配置对于成功搭建和使用Hadoop环境至关重要。遇到缺失问题时,按照上述步骤进行操作,可以有效解决这个问题,让你的Hadoop...

    Hadoop2.7.3 Window10 hadoop.dll winutils.exe

    在本文中,我们将深入探讨如何在Windows 10操作系统中使用Hadoop 2.7.3版本进行开发,特别关注“hadoop.dll”和...同时,随着Hadoop版本的更新,配置方法可能会有所变化,因此保持对最新版本的了解也是很重要的。

    使用VMware安装Hadoop全过程

    ### 使用VMware安装Hadoop全过程详解 #### 一、前言 随着大数据技术的发展,Hadoop作为处理海量数据的重要工具之一,在数据存储与处理领域占据了举足轻重的地位。为了更好地学习和掌握Hadoop平台,本文将详细介绍...

    Hadoop 2.7.5 Windows 7 64位 编译bin(包含winutils.exe, hadoop.dll等)

    这个库文件对于Java应用程序调用Hadoop原生方法是必不可少的,特别是在运行MapReduce任务或者使用Hadoop的其他功能时。 编译Hadoop 2.7.5的过程包括但不限于以下步骤: 1. **安装Prerequisites**:首先,需要安装...

    hadoop安装方法

    hadoop的集群安装方法和虚拟机安装方法,亲测成功,系统为centos7

    BeeGFS作为Hadoop文件系统.pdf

    实现Hadoop使用BeeGFS作为文件系统的配置方法主要有两种,分别是使用BeeGFS的Hadoop连接器和通过POSIX接口访问BeeGFS挂载点。这两种方法在配置上的主要差异在于Hadoop如何访问BeeGFS存储系统。 当使用BeeGFS Hadoop...

    hadoop2.7.x_winutils_exe&&hadoop_dll

    `hadoop.dll`是一个动态链接库文件,它包含了Hadoop运行所需的一些核心功能。在Windows操作系统中,DLL文件是程序共享函数库的实现方式,多个程序可以调用同一份代码,从而节省内存并便于更新。`hadoop.dll`通常...

Global site tag (gtag.js) - Google Analytics