`
coderplay
  • 浏览: 577954 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

我在Hadoop云计算会议的演讲

阅读更多

点击下载演讲稿


由中科院计算所主办的“Hadoop 中国2010云计算大会”于9月4日在北京召开。淘宝网作为国内最大的Hadoop应用商之一赞助与参与了这次会议。我有幸代表淘宝在大会上分享了淘宝在分布式数据处理实践的内容,下面是ppt的一个节选:

淘宝网目前有会员2亿左右,日均UV高达4000万,日交易量高达10亿元,每天产生大量的数据,所以部署了一系列不同规模的Hadoop集群。淘宝生产所使用的Hadoop集群为目前国内规模最大的Hadoop集群之一。在会议前一天,这个集群的规模是
1.总容量为9.3PB,利用率77.09%。
2.共有1100台机器。
3.每天处理约18000道hadoop作业
4. 用户数474人,用户组38个
5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个

淘宝由于数据的快速增长,已经计划扩容至1500机器的规模,总容量达到20+PB.


点击下载演讲稿

 

  • 大小: 110 KB
3
1
分享到:
评论
2 楼 bhjackson 2011-05-18  
1 楼 凤凰山 2010-12-06  

相关推荐

    2011 hadoop中国云计算大会

    标题 "2011 hadoop中国云计算大会" 暗示了本次会议的主题聚焦于Hadoop在云计算领域的应用,这是大数据处理的关键技术之一。描述 "Hadoop in China 2011 hadoop中国云计算大会" 强调了这场活动是中国的一次关于Hadoop...

    Hadoop与大数据技术大会( HBTC 2012)

    【Hadoop与大数据技术大会(HBTC 2012)】是一场专注于探索和讨论Hadoop及其在大数据处理领域应用的重要技术会议。这场大会聚集了业界专家、开发者以及对大数据技术感兴趣的人员,共同分享了关于Hadoop平台的最新...

    云计算资料分享.zip

    压缩包内的“云计算大会”可能包含了会议的演讲稿、研究报告、案例分析等,这些内容可能涵盖了云计算的最新趋势、最佳实践、成功案例以及未来的发展方向,对于了解云计算领域的前沿动态非常有价值。 总的来说,这个...

    Hadoop Summit 2013

    这场会议汇集了全球顶尖的Hadoop专家和技术爱好者,分享了Hadoop在大数据处理、分布式计算和云计算领域的最新进展和实践经验。通过提供的部分PPT资料,我们可以深入探讨以下几个关键知识点: 1. **Hadoop核心组件与...

    Amr Awadallah:Hadoop的前世今生

    第四届中国云计算大会于2012年5月23-25日在北京国家会议中心隆重举行。Cloudera创始人兼CTO Amr Awadallah带来了《Hadoop的前世今生》主题演讲。他指出Hadoop是一个能够对大量数据进行分布式处理的软件框架,就是...

    吴晓东:绿色云计算的发动机

    第四届中国云计算大会于2012年5月23-25日在北京国家会议中心隆重举行。泰迩睿亚太区总裁吴晓东带来了《绿色云计算的发动机》主题演讲,详细介绍了他们在产品中实现超高计算性能的同时,也介绍了他们为什么进一步降低...

    HBaseconAsia2018Keynote.zip

    HBasecon Asia 2018的Keynote演讲,对于想要深入理解HBase在大数据和云计算领域应用的专业人士来说,是一份宝贵的资源。通过学习这些材料,你可以了解到最新的技术进展,提升你的HBase应用技能,并洞悉大数据行业的...

    CCTC 2016 万达李呈祥:FLINK:STREAM ENGINE BEYOND BATCH.

    这表明本次演讲是在一个高规格的技术会议上进行,所涉及内容偏向技术深度和行业前沿。 3. 从文档的标签来看,“大数据”、“云计算”、“CCTC”都是与本次演讲内容相关的关键词。这可能说明了Flink作为大数据处理...

    Conf_talks:几个一般性会议演讲文本文件

    在IT行业中,会议演讲是分享最新技术和理念的重要途径。"Conf_talks"这个压缩包文件集合了几个一般性会议的演讲文本,这些文本通常包含了丰富的技术信息、行业动态以及专家见解。通过深入分析这些演讲内容,我们可以...

    2015 spark

    8. **HP Helion开源云计算落地中国**:HP的演讲可能涉及了在中国市场如何实施和推广基于OpenStack的云计算服务,并可能讨论了Spark在此过程中的作用。 9. **容器技术的历史、现状和展望**:李泽帆的报告全面回顾了...

    Pat McDonough:Parallel programming with Spark

    总之,Pat McDonough在演讲中详细介绍了Spark的核心特性和操作原理,并通过具体的使用案例展示了Spark如何高效地解决大数据处理中的各种问题。通过提供高效的数据处理能力、兼容性强的生态系统、丰富的编程接口以及...

    HBaseconAsiaTrack123.zip

    在"HBasecon Asia Track123.zip"这个压缩包中,我们可以推测它包含了HBasecon Asia会议的Track1、Track2和Track3三个部分的演讲资料。通常,这样的会议会涵盖HBase的多个方面,包括但不限于设计原理、最佳实践、性能...

    Michael Armbrust:Fast distributed query processing with Shark

    在这次由Michael Armbrust在2013年Spark Summit会议上所作的演讲中,我们了解到Shark项目背后的动机和实现细节。Shark是一个基于Spark的开源分布式查询引擎,能够运行Apache Hive的HiveQL语句。其目的是提供一个比...

    2014大数据技术大会PPT合集.rar

    张晖的演讲深入探讨了北京的大数据实践,杜玉杰的议题涉及OpenStack在大数据生态中的角色,而Spark的概述与编程模型则为开发者提供了实用的技术指导。 综上所述,这份2014大数据技术大会PPT合集不仅是对当时大数据...

    大数据处理资料

    在给定的压缩包文件中,我们可以看到一系列与大数据处理相关的资源,包括书籍、教程和会议演讲稿,这为我们提供了深入了解该主题的宝贵材料。 首先,"Hadoop开发者第3期.pdf"和"Hadoop实战高手之路---从零开始”的...

    BDTC2015全体大会

    【BDTC2015全体大会】是一场专注于大数据技术的专业会议,该会议在2015年举行,旨在探讨和分享大数据领域的最新进展、技术创新和应用实践。"BDTC"全称为"Baidu Big Data Technology Conference",由百度公司主办,是...

    vldb2015:VLDB会议记录

    Hadoop、Spark等大数据处理框架及其优化、新的数据处理模型如MapReduce、流处理等可能在会议上被广泛讨论。 3. **数据挖掘与分析**:会议中会涉及新的数据挖掘算法、模式识别技术,以及如何利用这些技术从海量数据...

    Flink Forward 201809 PPT berlin

    值得注意的是,2018年的Flink Forward还讨论了Flink的未来发展方向,包括对SQL的支持强化、状态管理和恢复机制的优化,以及在云计算环境下的部署和运维策略。这些前瞻性的内容,让我们对Flink的未来发展有了更清晰的...

    QECon2022 全球软件质量&效能大会 - 深圳站 PPT

    PPT(PowerPoint演示文稿)通常包含演讲者在会议上分享的主题、观点和数据,因此这些PPT文件将涵盖会议的主要内容。 【描述解析】: 描述信息简洁明了,强调了这是一组来自于QECon2022深圳站的PPT文件,意味着我们...

Global site tag (gtag.js) - Google Analytics