`
chenhua_1984
  • 浏览: 1253930 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

hadoop学习笔记之六:一些优化点

阅读更多

hadoop 性能调优

  1调优主要集中在另个方面
   A 减少运算时间
   B减少磁盘空间占用率
   CIo方面的优化

  2 Hadoop自身会将Task分配给正在空闲的节点去做,这样可以充分利用资源,并且会将Map任务分配给InputSplit所在的集群,以减少IO的开销,提升运算速度。

  3我们知道,在编写MapReduce程序时,Map的中间输出结果可能会很多,很大,对其进行压缩可以减少网络上的数据传输量,同时也会减少数据写入HDFS的时间,缺点就是对数据读取产生一定的影响,需更具实际情况来权衡。

  4默认的Hadoop配置不能很好的满足计算需要,默认为2个,需要对Config进行更改,就是设置MapReduce的任务槽,设置Map的数量主要需要参考Map任务的运行时间,Reduce的数量要参考任务槽的设置,一般为任务槽的0.95倍或者1.75倍。

   5Combine函数的使用,Combine函数是用来告诉Hadoop,Map过程中产生重复而且大量的数据可以进行本地合并,不需要交给网络上的其它节点去做,这样可以减少网络开销,提升性能

   6输入采用大文件,Hadoop对于大量小文件的处理能力是有限的,需要把文件的个数经可能的减少,增加文件的内容,这样可以减少开启MapReduce的任务数。

   7过滤数据,有时候很多数据源的数据是垃圾数据,如果直接读进来处理反而会降低性能,应此需要进行过滤。 

分享到:
评论

相关推荐

    Hadoop学习笔记

    这个“Hadoop学习笔记”涵盖了Hadoop生态系统中的核心组件,包括HDFS(Hadoop分布式文件系统)、HBase(一个分布式、列式存储的数据库)、Hive(数据仓库工具)以及Spark(一个快速、通用且可扩展的数据处理引擎)。...

    hadoop学习笔记(六)

    在Hadoop的学习过程中,MapReduce是一个非常核心的部分,它提供了分布式计算的能力,使得处理大规模数据变得可能。在本文中,我们将深入探讨如何使用Hadoop MapReduce实现类似SQL中的`MAX`和`MIN`操作。 首先,我们...

    hadoop,hive,hbase学习资料

    2. **Hadoop学习总结之一:HDFS简介.doc**、**Hadoop学习总结之四:Map-Reduce的过程解析.doc**、**Hadoop学习总结之五:Hadoop的运行痕迹.doc**、**Hadoop学习总结之二:HDFS读写过程解析.doc**:这些文档详细介绍...

    Hadoop学习笔记AAAAAAAAAAA

    《深入理解Hadoop分布式系统》 ...Hadoop的学习是一个逐步深入的过程,涵盖分布式存储、计算模型、资源调度等多个方面,理解其工作原理和最佳实践,对于在大数据环境中构建高效稳定的系统至关重要。

    hadoop学习笔记

    《Hadoop学习笔记》 Hadoop,作为大数据处理的核心框架,是开源社区的杰作,由Apache软件基金会维护。这份文档旨在深入解析Hadoop的基本概念、架构及其在大数据处理中的应用,帮助读者全面掌握这一重要技术。 一、...

    hadoop学习笔记.pdf

    【大数据与Hadoop简介】 大数据是指在传统数据处理技术无法有效处理的海量、高增长率和...学习Hadoop不仅可以帮助理解大数据处理的基本原理,也是进入大数据领域的基础,对于开发和优化大数据解决方案具有重要意义。

    hadoop3.1.3学习资料

    以下是对Hadoop 3.1.3的一些关键知识点的详细说明: 1. **Hadoop核心组件**: - **HDFS(Hadoop Distributed File System)**:Hadoop的主要存储系统,它将大型数据集分布在大量的廉价硬件上,提供高容错性和高...

    hadoop学习笔记(一、hadoop集群环境搭建).docx

    【Hadoop集群环境搭建】 Hadoop是一个开源的分布式计算框架,它允许在大规模...在实际生产环境中,还需要考虑更多的配置和优化,如配置Hadoop的日志聚合、安全认证(如Kerberos)、YARN以替换旧版的MapReduce框架等。

    Hadoop之HBase学习笔记

    【标题】"Hadoop之HBase学习笔记"主要聚焦于Hadoop生态中的分布式数据库HBase。HBase是一个基于Google Bigtable理念设计的开源NoSQL数据库,它运行在Hadoop之上,提供高性能、高可靠性以及可水平扩展的数据存储能力...

    传智黑马赵星老师hadoop七天课程资料笔记-第七天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第七天(全)" 涵盖了Hadoop技术栈的重要知识点,这是一份关于Hadoop学习的详尽资料,特别关注了课程的最后一天内容。在Hadoop的学习过程中,第七天通常会涉及到系统...

    hadoop笔记2.pdf

    根据提供的文件信息,我们可以了解到有关大数据和Hadoop的详细知识点。以下是基于文件内容的知识点梳理: **大数据的基本概念** 大数据指的是无法在一段合理的时间范围内用常规软件工具捕捉、管理和处理的数据集合...

    尚硅谷大数据技术之Hadoop(MapReduce)1

    【尚硅谷大数据技术之Hadoop(MapReduce)1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型,被广泛应用于大数据处理领域。Hadoop将其作为核心组件,实现了分布式计算的功能...

    hadoop笔记打包下载(想学hadoop不下载后悔)

    集群的管理和配置是Hadoop学习中的重要环节,包括节点间通信设置、资源调度策略等。 3. **MapReduce**: MapReduce是Hadoop的并行计算模型,它将大型数据集分割成小块,并在多台机器上并行处理。Map阶段将原始数据...

    传智播客hadoop资料文档和笔记

    《传智播客Hadoop资料文档和笔记》是一份针对Hadoop技术的综合学习资源,由知名教育机构传智播客提供。这份资料涵盖了Hadoop生态系统的各个方面,旨在帮助学习者深入理解并掌握这一分布式计算框架的核心概念和技术。...

    Hadoop学习网址

    #### 六、Hadoop MapReduce 学习笔记 - **网址**: [Hadoop MapReduce 学习笔记](http://guoyunsky.iteye.com/blog/1233707) - **内容概述**: - **基本概念**: 讲解了MapReduce的基本概念和工作原理,以及它如何与...

    hadoop安装及详细学习笔记

    ### Hadoop 安装及详细学习笔记 #### Hadoop 概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它旨在提供高扩展性、可靠性和高效性,适用于处理PB级别的数据集。Hadoop 的核心组件包括 HDFS(Hadoop ...

    Hadoop课程笔记1

    【大数据定义与特点】 ...随着数据量的持续爆炸性增长,理解和掌握Hadoop等大数据技术已经成为IT专业人士必备的技能之一,尤其在仓储物流、电商、电信、生物医学等领域,大数据技术正发挥着日益重要的作用。

    大数据云计算技术 Hadoop运维笔记(共21页).pptx

    【大数据云计算技术 Hadoop运维笔记】的PPT涵盖了Hadoop在蓝汛公司的应用实践,以及Cloudera的产品和运维经验。以下是对其中知识点的详细解释: 1. **Hadoop在蓝汛的应用**: - 蓝汛使用了6000台设备,300个集群,...

    Hadoop数据分析平台学习笔记

    ### Hadoop数据分析平台学习笔记 #### 一、Hadoop概述 **Hadoop**是一个开源软件框架,用于分布式存储和处理大型数据集。它的设计灵感来源于Google的论文,其中包括Google文件系统(GFS)和MapReduce计算模型。...

Global site tag (gtag.js) - Google Analytics