1.map/reduce
map:
子任务,一个map/reduce任务首先会分解成多个map子任务,会被分配到多个节点运行;
每一个map任务执行计算作业的一部分;
每个map任务执行完成之后,会产生中间文件;
reduce的任务就是将map任务产生的中间文件作为输入数据,将所有的map任务汇总输出;
2.编写JAVA代码出现如下问题
2012-4-20 19:36:55 org.apache.hadoop.util.NativeCodeLoader <clinit>
璀﹀憡: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。
上述意思是说不能再如本地类库,处理的方式也比较简单:
在Hadoop的配置文件core-site.xml中可以设置是否使用本地库:
<property>
<name>hadoop.native.lib</name>
<value>true</value>
<description>Should native hadoop libraries, if present, be used.</description>
</property>
3.HIVE的使用
HIVE中是等值JOIN的,也支持左右连接;
在使用写有 Join 操作的查询语句时有一条原则:应该将条目少的表/子查询放在 Join 操作符的左边。
原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生 OOM 错误的几率。
4.hadoop原生默认的压缩文件的解析
hadoop中的文件是默认压缩的,在hadoop中的API中是根据文件后缀名成来判断该文件的压缩类型的
例如test.deflate文件,其hadoop的文件压缩格式就是deflate,这种是默认的hadoop文件格式,当然还支持其他好几种压缩格式,比如Gzip,bzip2,zlib等
下面是hadoop解压文件,并输出成string的代码:
CompressionCodecFactory factory = new CompressionCodecFactory(conf);
CompressionCodec codec = factory.getCodec(p);
if (codec == null) {
throw new IOException(
String.format(
"Can't find any suitable CompressionCodec to this file:%s",
p.toString()));
}
in = fs.open(p);
CompressionInputStream cin = codec.createInputStream(in);
br = new BufferedReader(new InputStreamReader(cin, encoding),
bufferSize);
表1 Hadoop支持的压缩格式
压缩格式 工具 算法 文件扩展名 Hadoop压缩编码/解码器
DEFLATE 无 DEFLATE .deflate Org.apache.hadoop.io.compress.DefaultCodec
Gzip gzip DEFLATE .gz Org.apache.hadoop.io.compress.GzipCodec
bzip2 bzip2 bzip2 .bz2 Org.apache.hadoop.io.compress.BZip2Codec
LZO lzop LZO .lzo Com.hadoop.compression.lzo.LzopCodec
分享到:
相关推荐
【Hadoop Eclipse Plugin 1.1.2:开启Hadoop在Eclipse中的开发之旅】 Hadoop Eclipse Plugin 1.1.2 是一个专门为Eclipse IDE设计的插件,旨在简化Hadoop应用程序的开发过程。这个插件使得Java开发者能够在熟悉的...
安装Hadoop Eclipse Plugin 2.7.5后,只需将`hadoop2.7.5-eclipse-plugin`文件导入Eclipse,即可开启Hadoop开发之旅。值得注意的是,为了确保插件正常工作,开发者需要在Eclipse中配置好Hadoop的相关环境变量,如...
《Hadoop Eclipse Plugin 2.7.3:开启大数据开发之旅》 在大数据处理的世界里,Hadoop无疑是一个核心组件,而Hadoop Eclipse Plugin 2.7.3则是开发者们亲密无间的合作伙伴。这款插件为Eclipse IDE带来了强大的功能...
### Hadoop安装教程:单机与伪分布式配置详解 #### 一、引言 Hadoop是一种开源的大数据处理框架,广泛应用于数据存储和处理场景。本文档将详细介绍如何在Ubuntu 14.04...希望这篇教程能够为您的大数据之旅提供帮助!
他的课程内容包括了Hadoop的使用方法和大型案例,帮助学员深入了解Hadoop的实际应用,并获得宝贵的操作经验。 总结来说,云计算和分布式大数据处理是现代IT技术发展的重要方向,Hadoop作为一个优秀的分布式大数据...
以下是一些历年笔试的回顾和经验分享: 1. **2017全球实习生0T笔试**:这个环节通常包含逻辑推理、数学能力以及英语阅读理解等内容,旨在测试应聘者的综合素质和快速解决问题的能力。 2. **大数据MT技术笔**:...
- 设计模式是解决软件设计中常见问题的经验总结,如单例、工厂、观察者、装饰者等23种经典设计模式。 10. 数据结构与算法: - 数据结构包括数组、链表、树、图等,是高效编程的基础。 - 算法如排序、搜索、动态...
总结来说,"Introduction-to-Big-Data-with-Apache-Spark"课程是一次全面深入的Spark之旅,无论你是初学者还是有经验的开发者,都能从中受益。通过学习,你不仅能够掌握Spark的核心技术,还能提升大数据处理和分析的...
总之,计算机专业学习是一场深度与广度并重的探索之旅,要求学生既要掌握扎实的基础知识,也要具备与时俱进的技术素养。在全球化背景下,与国际接轨,不断提升自己的专业水平,是中国计算机专业学生面临的挑战和机遇...
《HBase权威指南》是一本...总之,《HBase权威指南》是一部值得每一位关注大数据技术的读者仔细研读的作品,它不仅提供了丰富的理论知识,更注重实践指导,旨在帮助读者掌握HBase的精髓,开启大数据领域的探索之旅。
在宝宝们还只会呀呀学语的时候,我就开始了深夜的学习之旅。十二点后的静谧时光,是我与知识的独处时刻。我充分利用这段时间,深入研究编程语言、软件开发、网络技术以及数据分析等领域的最新动态。这样的学习方式...
在这个文档中,我们将全面解析SparkPlug Kit的核心功能和使用方法,为您的Spark开发之旅提供有力支持。 1. Spark基础知识:Spark是Apache软件基金会的一员,是一个用于大数据处理的快速、通用且可扩展的开源框架。...