`
085567
  • 浏览: 220323 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop集群优化手记

阅读更多
<property>
	<name>mapred.min.split.size</name>
	<value>268435456</value>
        <description>决定了每个 Input Split的最小值,也间接决定了一个Job的map 数目。
                          这里设置为256M,默认64M,有效减少了map的数量,因为在大数据量时,
                          map数量过大并不一定速度就快,而1个进程处理256M数据也是很快的</description>
</property>
<property>
	<name>mapred.compress.map.output</name>
	<value>true</value>
        <description>打开map输出压缩以节省各节点传输的流量</description>
</property>
<property>
	<name>io.sort.mb</name>
	<value>250</value>
        <description>map输出结果在内存占用buffer的大小,当buffer达到一定阈值,
                          会启动一个后台线程来对buffer的内容进行排序,然后写入本地磁盘(一个spill文件).默认100M,
                          有点小了,但并不是越大越好,尝试过调到400M,发现机器内存有点吃不消,又回调到250M</description>
</property>
<property>
	<name>mapred.reduce.parallel.copies</name>
	<value>10</value>
        <description>Reduce copy数据的线程数量,默认值是5</description>
</property>
<property>
	<name>mapred.job.shuffle.merge.percent</name>
	<value>0.8</value>
        <description>从Map节点取数据过来,放到内存,当达到这个阈值之后,
                          后台启动线程(通常是Linux native process)把内存中的数据merge sort,
                          写到reduce节点的本地磁盘;</description>
</property>

http://www.duyifan.com/?cat=1

分享到:
评论

相关推荐

    hadoop2.2+spark集群搭建手记之hadoop集群遇到的各种问题

    hadoop2.2集群搭建遇到的各种问题。

    hadoop2.2+hbase0.9x集群搭建手记之hadoop集群遇到的各种问题

    亲自搭建集群,由于代码文件比较大,需要的联系我。

    Hadoop配置手记

    这一步对于Hadoop集群内部通信至关重要,因为Hadoop依赖于DNS或`/etc/hosts`来解析节点间的名称。 接下来是SSH无密码登录的配置。SSH(Secure SHell)协议允许节点间进行安全的远程登录。在Cloud-master上生成SSH...

    Hadoop on redhat enterprise 5.4部署安装手记

    本篇手记详细记录了在RedHat Enterprise 5.4上部署Hadoop集群的步骤,这对于希望构建稳定且高效云计算平台的IT专业人员来说具有很高的参考价值。选择RedHat Enterprise 5.4作为虚拟机平台主要是考虑其商业支持和稳定...

    Hadoop入门实战手册

    #### 四、Hadoop集群搭建过程手记 **4.1 免密码SSH设置**:这是为了能够在不同的节点之间无密码执行命令。 **4.2 Hadoop软件安装**:在每个节点上安装Hadoop软件。 **4.3 Master配置**:配置主节点,包括NameNode...

    hadoop权威指南第四版

    在《Hadoop权威指南第四版》中,读者将学习如何安装、配置和管理Hadoop集群,如何编写MapReduce程序,如何使用HDFS进行数据存储,以及如何利用YARN优化资源分配。此外,书中还介绍了HBase这样的NoSQL数据库,以及...

    HADDOP手记

    Hadoop实战之Hadoop完全分布式集群安装

    Rhel_Server7安装Hbase手记

    该文档详细记录了在Rhel_Server7操作系统上安装三节点hadoop分布式集群,分布式数据库hbase的安装步骤及问题。

    [老白]DBA日记

    1. **大数据处理**:随着大数据技术的发展,老白可能会讨论如何管理和分析大规模数据,以及Hadoop、Spark等大数据平台的集成。 2. **云数据库管理**:包括云数据库的选择、迁移过程、云数据库的监控与优化,以及...

Global site tag (gtag.js) - Google Analytics