`
allenjoe1986
  • 浏览: 11953 次
  • 性别: Icon_minigender_1
  • 来自: 南京
最近访客 更多访客>>
社区版块
存档分类
最新评论

Baidu/Taobao Hadoop

阅读更多

百度和淘宝是目前国内Hadoop的最大使用者,在NoSQL fan上看了百度和淘宝Hadoop集群的揭秘,总结一下。链接分别如下:

 

百度Hadoop分布式系统揭秘:4000节点集群: http://blog.nosqlfan.com/html/983.html

淘宝Hadoop数据分析实践:http://www.slideshare.net/coderplay/hadoop-9256433

 

百度:

百度一向是走C++系的,其Hadoop平台也是采用的C++版的HCE,而且值得注意的是百度是HyperTable的主要赞助者,HyperTable是C++版的HBase。可见百度对于Java的性能还是有些不放心吧,呵呵。

 

百度的Hadoop集群主要用于后端数据训练和计算,目前规模如下:

4000节点,10+个集群,最大集群1000+节点;

单节点配置:8 core CPU,16G 内存,12T硬盘

数据生成量:3PB/天

 

百度对HCE也进行了一些优化,例如:调度器是在capacity-scheduler的基础上根据自身业务改进的,对shuffle流程也进行了大幅改造。

 

淘宝:

一直比较崇拜淘宝,想当当年找工作真正见识到了淘宝面试官的技术实力,那叫一个牛啊,面完之后,自信心严重受挫......希望有朝一日也能进淘宝吧。言归正传,淘宝极具分享精神,在很多会议上和论坛上都发布了其Hadoop实践经验。

 

淘宝的Hadoop集群成为“云梯”,主要也是用于数据的分析。目前配置:

1600+节点,总容量27.79PB,6.6千万个file,每台机器12T/24T。

40000job/天,扫描数据1.7PB/天,产生数据255TB/天

用户数820个,用户组67个

淘宝也根据其自由业务对Hadoop进行了很多优化,具体细节见slideshare的ppt。

分享到:
评论

相关推荐

    重新编译好的contain-executor文件,指向/etc/hadoop/container-executor.cfg

    所以需要重新编译Container-executor,这边提供重新编译好的,默认加载配置文件路径/etc/hadoop/container-executor.cfg 使用方法: 1 替换/$HADOOP_HOME/bin/下的container-executor 2 创建/etc/hadoop目录,并将...

    hadoop-lzo-master

    1.安装 Hadoop-gpl-compression ...1.2 mv hadoop-gpl-...bin/hadoop jar /usr/local/hadoop-1.0.2/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.LzoIndexer /home/hadoop/project_hadoop/aa.html.lzo

    hadoop/bin/hadoop.dll

    标题中的"hadoop/bin/hadoop.dll"指出这是一款与Hadoop框架相关的动态链接库(DLL)文件,它位于Hadoop安装目录的"bin"子目录下。在Windows操作系统中,DLL文件是程序运行所必需的组件,它们包含了可执行文件在运行...

    hadoop常见问题及解决办法

    Hadoop常见问题及解决办法汇总 Hadoop是一个基于Apache的开源大数据处理框架,广泛应用于大数据处理、数据分析和机器学习等领域。然而,在使用Hadoop时,经常会遇到一些常见的问题,这些问题可能会导致Hadoop集群...

    hadoop安装过程中的问题

    Hadoop/etc/hadoop/slaves 的IP地址要变。 5个重要的配置文件逐个检查,IP地址需要变 2.配置文件确认无错误,看日志: 从logs日志中寻找slave的namenode为什么没有起来。 3.最后发现是hdfs中存在上次的数据,删掉...

    hadoop单机配置方法

    ### Hadoop单机配置详解 在大数据处理领域,Apache Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。本文将详细介绍如何在单机环境下配置Hadoop,使其能够运行基本的大数据处理任务。 #### 一、配置...

    hadoop/etc/hadoop/6个文件

    hadoop/etc/hadoop/6个文件 core-site.xml hadoop-env.sh hdfs-site.xml mapred-site.xml yarn-env.sh yarn-site.xml

    hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤: 1. 安装Java 2. 下载Hadoop 3. 配

    hadoop安装与配置 hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤: 1. 安装Java 2. 下载Hadoop 3. 配置Hadoop ...编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh,设置JAVA_HOME: export JAVA_H

    hadoop中文实战

    《Hadoop中文实战》是一本面向初学者的指南,旨在帮助读者快速掌握Hadoop的核心概念和技术,从而在大数据处理领域奠定坚实的基础。Hadoop作为开源的分布式计算框架,已经成为处理海量数据的关键工具,广泛应用于...

    运行成功的hadoop配置文件

    经过多次反复试验,完全可用的hadoop配置,有0.19的版本,也有0.20的版本。并且有脚本可以在两个版本之间...vi hadoop/conf/core-site.xml <name>hadoop.tmp.dir</name> <value>/data/hadoop_tmp</value> 祝好运!

    关于启动/配置hadoop时出现的问题

    1.在启动 hadoop 时提示 “Could not resolve hostname” 首先应该立即停止启动(ctrl+c),之后打开~./bashrc,在这里面添加如下代码: export HADOOP_HOME=/usr/local/hadoop export HADOOP_COMMON_LIB_NATIVE_...

    hadoop-core-0.20.2-cdh3u3.jar

    export HADOOP_HOME="/usr/local/hadoop/" export JAVA_HOME="/usr/local/hadoop/jdk1.6.0_24" export CLASSPATH="$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:${HADOOP_HOME}/lib/commons-logging-1.0.4.jar...

    Hadoop安装和配置

    <value>/data/hadoop/data,/data/hadoop/data01,/data/hadoop/data02</value> </property> <name>dfs.permissions</name> <value>false</value> </property> <name>dfs.support.append</name> <value>...

    hadoop伪分布式安装.pdf

    - 使用命令`mv /root/soft/hadoop/etc/hadoop/mapred-site.xml.template /root/soft/hadoop/etc/hadoop/mapred-site.xml`。 - 使用命令`vim /root/soft/hadoop/etc/hadoop/mapred-site.xml`编辑文件。 - 在`...

    hadoop2.6.0的源码jar hadoop-common-2.6.0-sources.jar

    下载hadoop2.6.0的源码辛苦编译成的,网上没找到编译好现成的,费了几个小时用maven编译好的带源码的jar包,中间还得安装编译protoc,可以直接供eclipse使用。

    hadoop配置

    # scp core-site.xml hdfs-site.xml mapred-site.xml hadoop3:/home/hadoop/hadoopinstall/hadoop-0.20.2/conf/ ``` 通过以上步骤,您可以成功搭建一个由一个NameNode和两个DataNodes组成的Hadoop集群。这为进行...

    hadoop2.6-common-bin.zip

    标题 "hadoop2.6-common-bin.zip" 指示这是一个包含Hadoop 2.6版本通用二进制文件的压缩包。这个压缩包主要针对Windows用户,旨在解决在该操作系统上运行Hadoop时可能遇到的"Could not locate executable"错误。这个...

    hadoop-1.2.1-安装配置手册(含安装介质)

    [hadoop@testdb~]$ /home/hadoop/hadoop-1.2.1/bin/hadoop dfsadmin -safemode leave ``` #### 四、常见问题解决 - **问题1**:无法启动Hadoop服务。 - 检查JDK环境变量是否正确配置。 - 检查Hadoop配置文件...

Global site tag (gtag.js) - Google Analytics