`
085567
  • 浏览: 217367 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

百度Hadoop分布式系统揭秘:4000节点集群

阅读更多

在 NoSQL 方面,之前了解到百度对 Hadoophypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。

百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有超过1万个节点,每天的数据生成量在10PB以上。

底层的计算资源管理层采用了Agent调度不同类型的计算分别给MPI结构的算法和Map-Reduce和DAG算法应用等。而通过调度的分配,可以让HPC高性能计算集群和大规模分布式集群各得其所的计算相应数据。

百度通过HCE对streaming作业的排序,压缩,解压缩,内存控制进行了优化并提供了C++版的MapReduce接口。

百度HCE语言的有关内容,HCE是基于C++的Hadoop环境,是一个全功能C++环境,可以避开Java语言对于释放内存和资源申请的弊端,并在调用数据时绕开Java语言的所有关节,极大的提升算法效率。

百度的调度器是在capacity-scheduler的基础上根据自身业务改进的。

百度计划对shuffle流程进行大幅改造

来源:http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html

分享到:
评论

相关推荐

    Hadoop分布式文件系统:架构和设计.doc

    Hadoop分布式文件系统架构和设计 Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式...

    Hadoop分布式文件系统:架构和设计.pdf

    《Hadoop分布式文件系统:架构和设计》是深入理解Hadoop核心技术的重要参考资料,它详尽地阐述了Hadoop分布式文件系统(HDFS)的设计理念、架构以及实现方式。以下是基于书中的内容,对Hadoop HDFS的核心知识点进行...

    Hadoop分布式系统:系统设计与架构

    ### Hadoop分布式系统:系统设计与架构 #### Hadoop简介 Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它最初由Apache Software Foundation开发,并已成为大数据处理领域的核心工具之一。Hadoop...

    Hadoop分布式集群配置指南

    Hadoop分布式集群配置指南 Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 ...

    基于Hadoop分布式爬虫设计综述.docx

    3. 分布式爬虫设计流程图:分布式爬虫设计流程图是指基于Hadoop分布式文件系统HDFS及其分布式计算框架MapReduce的基础上开发的分布式搜索引擎的爬虫设计流程图。 四、结论 基于Hadoop分布式爬虫设计是当今互联网...

    hadoop 分布式集群搭建

    Hadoop分布式集群搭建的...总结来说,Hadoop分布式集群的搭建是一个涉及到硬件环境、软件安装、网络配置、系统参数调优等多方面知识的综合过程。搭建完成后,应该进行充分的测试以确保集群的稳定性和性能表现符合预期。

    大数据之hadoop分布式集群初次启动 (2).docx

    在 Hadoop 分布式集群中,需要配置集群中各个节点间的 SSH 免密登录,以便可以远程登录到其他节点。这里使用的 trick 是将 authorized_keys 文件从伪分布集群虚拟机复制过来,这样可以实现免密登录。 2. 格式化 ...

    网站案例分析及Hadoop分布式集群环境(全套视频+课件+代码+讲义+工具)

    01_MapReduce框架处理数据的流程及几点注意 02_编写MapReduce编程模块 03_MapReduce数据类型及自定义数据类型 04_案例:网站基本指标分析(一) ...11_分布式安装部署:配置主从节点之间的SSH无密钥登录

    Hadoop分布式文件系统——翻译

    ### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

    基于Hadoop分布式集群搭建方法研究.pdf

    基于Hadoop分布式集群搭建方法研究的知识点包含以下几个方面: 1. Hadoop简介与大数据分布式基础架构: Hadoop是一个开源的大数据平台,由Apache软件基金会支持。它包括HDFS(Hadoop分布式文件系统)和MapReduce...

    hadoop分布式文件系统搭建

    ### hadoop分布式文件系统搭建 #### 一、配置hadoop分布式文件系统环境搭建 ##### 1. 准备 在开始搭建Hadoop分布式文件系统之前,首先需要确保环境准备妥当。具体步骤包括: - **检查端口占用情况**:通过`...

    实验2 基于华为云的Hadoop分布式系统搭建1

    5. 完成一个完整的三节点Hadoop分布式系统的部署,确保所有组件正常运行。 【实验原理】 Hadoop是由Apache软件基金会开发的一个开源框架,主要用于处理和存储大规模数据。Hadoop的核心组件包括HDFS和MapReduce。...

    DFS命令行工具操作Hadoop分布式集群初体验

    2. Hadoop分布式集群:Hadoop分布式集群是指运行Hadoop平台的多个计算机节点组成的集群,这些节点协同工作,共同处理大量数据。Hadoop的核心组件包括HDFS(用于存储数据)和MapReduce(用于处理数据)。 3. Hadoop...

    大数据之hadoop分布式集群初次启动 (2).pdf

    在 Hadoop 分布式集群中,各个节点之间需要配置 SSH 免密登录,以便于集群中的节点之间可以相互通信。我们可以在 master 节点中输入命令 ssh slave1,连接到 slave1 节点,并输入 yes 确认连接。然后,我们可以远程...

    基于Hadoop的分布式集群大数据动态存储系统设计.pdf

    为了解决这些问题,本文提出了一种基于Hadoop的分布式集群大数据动态存储系统的设计方案。 首先,需要明确Hadoop在大数据处理中的地位和作用。Hadoop是一个开源的分布式存储和计算平台,它提供了一套完整的生态系统...

    Hadoop分布式集群容错验证

    Hadoop分布式集群容错验证

    分布式存储系统:HDFS:HDFS生态系统:Hadoop工具与应用.docx

    分布式存储系统:HDFS:HDFS生态系统:Hadoop工具与应用.docx

    hadoop 分布式缓存源码

    Hadoop分布式缓存是Hadoop生态系统中的一个重要组成部分,它允许应用程序在执行MapReduce任务时共享和重用数据,从而提高整体性能。这份源码提供了深入理解Hadoop如何管理和利用分布式缓存的机会,对于想要优化...

Global site tag (gtag.js) - Google Analytics