`
zcwfeng
  • 浏览: 106512 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
社区版块
存档分类
最新评论

Hadoop平台学习过程的一些总结

 
阅读更多
1.MapR有三种版本,M3(免费版)、M5(含有支持的版本,并启用了所有HA特性)和M7(最近和重写的HBase一起发布),MapR采取了一种与其他供应商不同的方法,它肯定会有属于自己的追随者。

2.hadoop 执行 mapreduce的有几种方式
一、原生态的方式:java 源码编译打包成jar包后,由 hadoop 脚本调度执行
二、基于 MR 的数据流 Like SQL 脚本开发语言:pig
三、构建数据仓库的类 SQL 开发语言:hive
四、跨平台的脚本语言:python

3.hadoop的调优
在job中中间的结果使用压缩,输出数据量大的话也要采用压缩,因为备份有副本所以压缩可以加快磁盘的IO,对机器多的效果应该更明显,可以大幅度提高job的效率。
尽量减少task的数量,减少每个task耗费的时间。当一个job数据大于1TB 要增加 块的大小 (256 512 大概)。//hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata
利用Combiner减少磁盘和网络传输到reduce的数据量
使用自己的Writable类尽量重用,不是多次的创建

任务调度的时候会尽量将任务分配给输入数据块InputSplit所在的机器,减少IO网络的消耗。
提交MapReduce任务之前,可以先对数据进行一次预处理将小数据合并成适当的大数据。如果Map的任务时间很短可以考虑调节Block块的大小来调整Map的运行时间。
控制MapReduce任务的数量,调节Map/Reduce的任务槽。Map可以根据时间来调节,reduce调整reduce和任务槽的比例。
利用Combine函数调整Map函数产生的很多重复的中间数据,利用本地的合并,在传递给Reduce,可以减少数据的网络传输
可以对Map的输出和最终结果进行压缩
自定义comparator,可以实现一些算法如K-means。
分享到:
评论

相关推荐

    Hadoop学习总结.doc

    ### Hadoop 学习总结 #### 一、HDFS简介 **1.1 数据块(Block)** HDFS(Hadoop Distributed File System)是Hadoop的核心组件之一,它主要用于存储大规模的数据集。HDFS默认的基本存储单位是64MB的数据块。与...

    Hadoop平台详细搭建过程

    以上就是根据提供的文件内容总结的关于Hadoop平台搭建过程及其相关知识点。需要注意的是,由于文件内容中提到的一些网址和联系方式已经过时,实际上获取最新资讯和资源需要访问当前有效的官方平台或社区。

    Hadoop学习总结

    以下是对Hadoop学习的详细总结: **HDFS(Hadoop Distributed File System)简介** HDFS是Hadoop的核心组件之一,是一个高度容错性的分布式文件系统。它被设计成能在普通的硬件上运行,并能够处理大规模的数据集。...

    Hadoop学习总结和源码分析

    接下来,“Hadoop学习总结之二:HDFS读写过程解析.doc”详细解释了HDFS的数据读写流程。在写入数据时,客户端首先与NameNode通信获取数据块位置,然后将数据分块并发送到各个DataNode。在读取数据时,客户端同样先...

    HADOOP安装过程

    Hadoop是一种能够处理大量数据的大规模分布式存储与计算框架,常用于构建大数据分析平台。本文档基于一位用户的实践经历,详细介绍了如何在虚拟机环境下安装和配置Hadoop的过程。该文档不仅适用于初学者了解Hadoop的...

    Hadoop入门学习文档

    通过以上知识点的总结,可以清晰地了解到Hadoop作为大数据处理领域的重要工具,不仅拥有强大的存储和计算能力,还拥有丰富的生态系统和广泛的商业支持。对于希望进入大数据领域的技术人员来说,掌握Hadoop的基础知识...

    Hadoop学习资料

    以上总结的知识点均来自给定文件的内容,涵盖了Hadoop的学习资料、版本历史、生态圈、安装、HDFS、MapReduce、Zookeeper、HBase、Hive、Storm以及数据挖掘和推荐系统等多个方面,为学习和使用Hadoop提供了全面的理论...

    八斗学习材料.docx,hadoop的 学习体系总结

    ### Hadoop学习体系总结 #### 一、Hadoop学习体系概览 Hadoop是一个能够对大量数据进行分布式处理的软件框架。它通过提供一个高可靠性、高性能、可扩展的平台来处理海量数据集,适用于大数据分析领域。为了更好地...

    hadoop学习总结(面试必备)

    【Hadoop学习总结(面试必备)】 Hadoop作为大数据处理的核心框架,因其分布式存储和计算的能力,成为业界处理海量数据的首选工具。本总结将深入探讨Hadoop的主要组件、工作原理以及在面试中可能遇到的相关知识点。...

    hadoop和hive调优个人总结

    本文将总结个人在学习和测试Hive过程中的调优经验,包括Datanode的热插拔、启动自动Balancer、问题解决等方面。 一、 Datanode的热插拔 Datanode的热插拔是指在Hadoop集群中动态添加或删除Datanode节点的过程。...

    实验2-在Hadoop平台上部署WordCount程序-孙淼1

    实验2的目的是在Hadoop平台上部署WordCount程序,以此来理解和体验云计算的基础应用。这个实验主要涉及以下几个关键知识点: 1. **Linux系统基础**:实验要求学生具备Linux系统的使用知识,包括基本的命令行操作、...

    hadoop基础知识学习与总结

    【Hadoop基础知识学习与总结】 Hadoop是一个由Apache基金会开发的开源分布式系统基础架构,它的设计目标是处理和存储海量数据。Hadoop这个名字源于创始人Doug Cutting的孩子为一只棕黄色大象玩具所取的名字,象征着...

    大数据Hadoop存储与分析处理平台建设方案-大数据Hadoop平台集成实施服务解决方案.docx

    Hadoop知识学习篇主要包括FileSystem总结、文件读取过程、文件写入过程、Hadoop均衡器、Hadoop存档、数据完整性和压缩等几个方面。其中,FileSystem总结是Hadoop文件系统的总结,用于介绍Hadoop文件系统的基本概念和...

    Hadoop的学习(入门).docx

    【Hadoop学习(入门)】 Hadoop是大数据领域的一个核心框架,主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成,用于处理和存储海量数据。它是一个开源项目,由Apache软件基金会开发,旨在提供...

    Hadoop学习总结之五:Hadoop的运行痕迹

    ### Hadoop运行痕迹追踪详解 #### 一、引言 Hadoop作为一种强大的分布式计算框架,在大数据处理领域扮演着举足轻重的角色。然而,随着其功能的不断...希望本文的内容能够对您在Hadoop的学习和使用过程中有所帮助。

    Hadoop期末考试题总结.doc

    "Hadoop期末考试题总结" 本资源摘要信息主要介绍了Hadoop的相关知识点,涵盖了Hadoop的版本、4V特征、大数据存储、HDFS、MapReduce、SecondaryNameNode、Hadoop shell命令、集群管理工具等方面。 1. Hadoop的最高...

    hadoop技术总结

    【标题】:Hadoop技术总结 【描述】:Hadoop是一种开源框架,专门设计用于处理和存储大量数据,尤其适合初次接触大数据领域的学习者。它以其分布式计算模型、高容错性和可扩展性而闻名,使得企业能够有效地管理和...

    基于HADOOP平台的网络安全技术研究.pdf

    总结来说,Hadoop平台在网络安全中的应用,主要体现在利用其强大的数据存储和处理能力,进行网络安全事件的检测和分析。Hadoop平台的分布式文件系统(HDFS)和分布式计算框架(MapReduce)为网络安全数据的存储、...

Global site tag (gtag.js) - Google Analytics