百度和淘宝是目前国内Hadoop的最大使用者,在NoSQL fan上看了百度和淘宝Hadoop集群的揭秘,总结一下。链接分别如下:
百度Hadoop分布式系统揭秘:4000节点集群: http://blog.nosqlfan.com/html/983.html
淘宝Hadoop数据分析实践:http://www.slideshare.net/coderplay/hadoop-9256433
百度:
百度一向是走C++系的,其Hadoop平台也是采用的C++版的HCE,而且值得注意的是百度是HyperTable的主要赞助者,HyperTable是C++版的HBase。可见百度对于Java的性能还是有些不放心吧,呵呵。
百度的Hadoop集群主要用于后端数据训练和计算,目前规模如下:
4000节点,10+个集群,最大集群1000+节点;
单节点配置:8 core CPU,16G 内存,12T硬盘
数据生成量:3PB/天
百度对HCE也进行了一些优化,例如:调度器是在capacity-scheduler的基础上根据自身业务改进的,对shuffle流程也进行了大幅改造。
淘宝:
一直比较崇拜淘宝,想当当年找工作真正见识到了淘宝面试官的技术实力,那叫一个牛啊,面完之后,自信心严重受挫......希望有朝一日也能进淘宝吧。言归正传,淘宝极具分享精神,在很多会议上和论坛上都发布了其Hadoop实践经验。
淘宝的Hadoop集群成为“云梯”,主要也是用于数据的分析。目前配置:
1600+节点,总容量27.79PB,6.6千万个file,每台机器12T/24T。
40000job/天,扫描数据1.7PB/天,产生数据255TB/天
用户数820个,用户组67个
淘宝也根据其自由业务对Hadoop进行了很多优化,具体细节见slideshare的ppt。
分享到:
相关推荐
所以需要重新编译Container-executor,这边提供重新编译好的,默认加载配置文件路径/etc/hadoop/container-executor.cfg 使用方法: 1 替换/$HADOOP_HOME/bin/下的container-executor 2 创建/etc/hadoop目录,并将...
1.安装 Hadoop-gpl-compression ...1.2 mv hadoop-gpl-...bin/hadoop jar /usr/local/hadoop-1.0.2/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.LzoIndexer /home/hadoop/project_hadoop/aa.html.lzo
标题中的"hadoop/bin/hadoop.dll"指出这是一款与Hadoop框架相关的动态链接库(DLL)文件,它位于Hadoop安装目录的"bin"子目录下。在Windows操作系统中,DLL文件是程序运行所必需的组件,它们包含了可执行文件在运行...
Hadoop常见问题及解决办法汇总 Hadoop是一个基于Apache的开源大数据处理框架,广泛应用于大数据处理、数据分析和机器学习等领域。然而,在使用Hadoop时,经常会遇到一些常见的问题,这些问题可能会导致Hadoop集群...
Hadoop/etc/hadoop/slaves 的IP地址要变。 5个重要的配置文件逐个检查,IP地址需要变 2.配置文件确认无错误,看日志: 从logs日志中寻找slave的namenode为什么没有起来。 3.最后发现是hdfs中存在上次的数据,删掉...
### Hadoop单机配置详解 在大数据处理领域,Apache Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。本文将详细介绍如何在单机环境下配置Hadoop,使其能够运行基本的大数据处理任务。 #### 一、配置...
hadoop/etc/hadoop/6个文件 core-site.xml hadoop-env.sh hdfs-site.xml mapred-site.xml yarn-env.sh yarn-site.xml
hadoop安装与配置 hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤: 1. 安装Java 2. 下载Hadoop 3. 配置Hadoop ...编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh,设置JAVA_HOME: export JAVA_H
《Hadoop中文实战》是一本面向初学者的指南,旨在帮助读者快速掌握Hadoop的核心概念和技术,从而在大数据处理领域奠定坚实的基础。Hadoop作为开源的分布式计算框架,已经成为处理海量数据的关键工具,广泛应用于...
经过多次反复试验,完全可用的hadoop配置,有0.19的版本,也有0.20的版本。并且有脚本可以在两个版本之间...vi hadoop/conf/core-site.xml <name>hadoop.tmp.dir</name> <value>/data/hadoop_tmp</value> 祝好运!
1.在启动 hadoop 时提示 “Could not resolve hostname” 首先应该立即停止启动(ctrl+c),之后打开~./bashrc,在这里面添加如下代码: export HADOOP_HOME=/usr/local/hadoop export HADOOP_COMMON_LIB_NATIVE_...
export HADOOP_HOME="/usr/local/hadoop/" export JAVA_HOME="/usr/local/hadoop/jdk1.6.0_24" export CLASSPATH="$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:${HADOOP_HOME}/lib/commons-logging-1.0.4.jar...
<value>/data/hadoop/data,/data/hadoop/data01,/data/hadoop/data02</value> </property> <name>dfs.permissions</name> <value>false</value> </property> <name>dfs.support.append</name> <value>...
- 使用命令`mv /root/soft/hadoop/etc/hadoop/mapred-site.xml.template /root/soft/hadoop/etc/hadoop/mapred-site.xml`。 - 使用命令`vim /root/soft/hadoop/etc/hadoop/mapred-site.xml`编辑文件。 - 在`...
下载hadoop2.6.0的源码辛苦编译成的,网上没找到编译好现成的,费了几个小时用maven编译好的带源码的jar包,中间还得安装编译protoc,可以直接供eclipse使用。
# scp core-site.xml hdfs-site.xml mapred-site.xml hadoop3:/home/hadoop/hadoopinstall/hadoop-0.20.2/conf/ ``` 通过以上步骤,您可以成功搭建一个由一个NameNode和两个DataNodes组成的Hadoop集群。这为进行...
标题 "hadoop2.6-common-bin.zip" 指示这是一个包含Hadoop 2.6版本通用二进制文件的压缩包。这个压缩包主要针对Windows用户,旨在解决在该操作系统上运行Hadoop时可能遇到的"Could not locate executable"错误。这个...
[hadoop@testdb~]$ /home/hadoop/hadoop-1.2.1/bin/hadoop dfsadmin -safemode leave ``` #### 四、常见问题解决 - **问题1**:无法启动Hadoop服务。 - 检查JDK环境变量是否正确配置。 - 检查Hadoop配置文件...