最近精读Hadoop WordCount的示例,发现里面应该存在一个"可能的"Bug,现斗胆发出,希望有高人指点.
Bug描述:
WordCount数单词的时候,如果遇到大文件会对文件进行切分.但是切分是按照字节来进行的,完全有可能会将一个单词切分成2个单词,这样也就可能会创造2个不存在的单词.
相关代码:
- WordCount main 函数
( FileInputFormat.addInputPath(job, new Path(otherArgs[0]));)
public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: wordcount <in> <out>"); System.exit(2); } Job job = new Job(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); //FileInputFormat定义了大的输入文件,如何拆分 FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); }
- 具体拆分代码:
public InputSplit[] getSplits(JobConf job, int numSplits) throws IOException { FileStatus[] files = listStatus(job); // Save the number of input files in the job-conf job.setLong(NUM_INPUT_FILES, files.length); long totalSize = 0; // compute total size for (FileStatus file: files) { // check we have valid files if (file.isDir()) { throw new IOException("Not a file: "+ file.getPath()); } totalSize += file.getLen(); } long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits); long minSize = Math.max(job.getLong("mapred.min.split.size", 1), minSplitSize); // generate splits ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits); NetworkTopology clusterMap = new NetworkTopology(); //可以很清楚的看出来,这里的拆分全部是基于字节的. for (FileStatus file: files) { Path path = file.getPath(); FileSystem fs = path.getFileSystem(job); long length = file.getLen(); BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length); if ((length != 0) && isSplitable(fs, path)) { long blockSize = file.getBlockSize(); long splitSize = computeSplitSize(goalSize, minSize, blockSize); long bytesRemaining = length; while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { String[] splitHosts = getSplitHosts(blkLocations, length-bytesRemaining, splitSize, clusterMap); splits.add(new FileSplit(path, length-bytesRemaining, splitSize, splitHosts)); bytesRemaining -= splitSize; } if (bytesRemaining != 0) { splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining, blkLocations[blkLocations.length-1].getHosts())); } } else if (length != 0) { String[] splitHosts = getSplitHosts(blkLocations,0,length,clusterMap); splits.add(new FileSplit(path, 0, length, splitHosts)); } else { //Create empty hosts array for zero length files splits.add(new FileSplit(path, 0, length, new String[0])); } } LOG.debug("Total # of splits: " + splits.size()); return splits.toArray(new FileSplit[splits.size()]); }
原因猜想:
Hadoop处理的是大数据,拆分中出现几个单词错误是可以接受的,所以Hadoop就没有对这个进行特别严格的处理.
解决方法:
也就是在后期读取文件时,做一些微调. 具体详情可以参考Blog: 大数据笔记--续谈WordCount的Bug
相关推荐
在当今的大数据时代,MapReduce作为处理海量数据的核心技术之一,被广泛应用于各类大数据处理框架中。本文将对MapReduce的基本概念、编程模型、框架原理、相关组件以及入门编程实例等进行详细介绍。 MapReduce是一...
"大数据平台-MapReduce介绍.pdf" 大数据平台中的MapReduce是由Google公司的Jeffrey Dean和Sanjay Ghemawat开发的一个针对大规模群组中的海量数据处理的分布式编程模型。MapReduce实现了两个功能:Map函数应用于集合...
【实验报告模板 - 大数据应用-实验六】 在大数据领域,Hive 是一个至关重要的组件,它在 Hadoop 生态系统中扮演着数据仓库的角色。本次实验的主要目的是让学生深入理解 Hive 在数据处理中的功能,并熟悉其基本操作...
在大数据领域,Hadoop是一个关键的开源框架,用于存储和处理海量数据。Hadoop-3.1.3是Hadoop的稳定版本,提供了许多增强的功能和优化,使其更适合大规模分布式计算环境。在这个针对Linux系统的安装包中,我们将探讨...
通过编写WordCount程序,学生们能够直观地感受到Flink的流式处理能力,为后续更深入的大数据学习打下了坚实基础。实验过程流畅,按照老师提供的文档进行,使学习过程更为高效,激发了学生对大数据领域的探索兴趣。
6.1 Hadoop概述 6.2 HDFS 6.2.1 HDFS文件系统的原型GFS 6.2.2 HDFS文件的基本结构 6.2.3 HDFS的存储过程 6.3 MapReduce编程框架 6.3.1 MapReduce的发展历史 ...6.5.7 在Hadoop系统上运行测试程序WordCount
大数据工程师面试题和答案 大数据工程师面试题和答案是一份涵盖了大数据工程师面试中的常见问题和答案的文件。该文件涵盖了 HDFS、MapReduce、YARN 等大数据技术领域的知识点,同时也涉及到大数据工程师面试中的...
7.1 概述 7.2 MapReduce体系结构 7.3 MapReduce工作流程 7.4 实例分析:WordCount 7.5 MapReduce的具体应用 7.6 MapReduce编程实践
在大数据课程中,Scala编程基础是不可或缺的一部分,其中重点讲解了Scala的数据结构。本节主要关注数组和元组,以及集合和相关的计算函数。 首先,Scala中的数组有两种类型:定长数组和变长数组。定长数组使用`new ...
"大数据HelloWorld-Flink实现WordCount"是初学者入门Flink的典型示例,旨在介绍如何使用Flink处理数据并计算词频。在这个场景中,我们将讨论如何在本地环境中设置Flink、创建和运行一个简单的WordCount程序。 首先...
### Spark 下实现 WordCount #### 一、简介 在大数据处理领域,Apache Spark 是一个非常流行的框架,它能够高效地处理大规模数据集。WordCount 是一个经典的示例程序,用于统计文本文件中每个单词出现的次数。本篇...
1. HSDF获取文件:需要计算的源文本存在于HDFS系统上 2. Input(文件输入):HDFS中的文件都是以块(Block)为单位存储 3. Split
手写代码章节详细介绍了常见的算法和数据结构的实现,如冒泡排序、二分查找、快速排序、归并排序、二叉树以及基于Scala的Spark-WordCount实现。这些算法是面试中考察算法能力的常见问题,掌握这些算法对于通过技术...
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...
《大数据技术深度解析》 大数据,作为信息技术领域的重要分支,正逐步引领科技发展的潮流。这份“大数据-课程讲义.zip”文件,包含了丰富的学习资源,旨在深入探讨大数据的基础概念、核心技术以及实际应用。以下是...
从给出的文件信息中,我们可以看出,这些内容是关于华为大数据认证HCIP-Big Data Developer H13-723考试题库的知识点,接下来我将对这些知识点进行详细解析。 1. HBase数据写入接口类:在HBase中写入数据时,我们...
大数据实验报告 Hadoop 编程实现 wordcount 单词统计程序附源码 本实验报告旨在介绍使用 Hadoop 编程实现 wordcount 单词统计程序的步骤和代码实现。实验的目的在于熟悉 Hadoop 虚拟机的安装与环境的配置,初步理解...
实验2的目的是在Hadoop平台上部署WordCount程序,以此来理解和体验云计算的基础应用。这个实验主要涉及以下几个关键知识点: 1. **Linux系统基础**:实验要求学生具备Linux系统的使用知识,包括基本的命令行操作、...
### 大数据实验四-MapReduce编程实践 #### 一、实验内容与目的 ##### 实验内容概述 本次实验的主要内容是使用MapReduce框架来实现WordCount词频统计功能,即统计HDFS(Hadoop Distributed File System)系统中多个...
【标题】"cs-1660-gcp-wordcount-hw" 指的是一项针对计算机科学课程(可能编号为CS-1660)的作业,该作业涉及到在Google Cloud Platform (GCP)上实现一个词频统计(WordCount)程序。在大数据处理和云计算领域,...