这好像是sigmod2010上的paper。
读了之后做了以下几点记录:
1. facebook的hadoop cluster分成
scribe hadoop cluster: scribe servers将web service的log汇总然后存到HDFS上。通常会有带宽成为bottleneck的问题,这时候可以考虑压缩,但是一个副作用就是在buffer待压缩的数据的同时导致latency增大;
production-hive hadoop cluster:通常处理schedule好的,有严格deadline的任务;
Adhoc hive hadoop cluster:优先级较低的批处理任务或者adhoc的用户分析任务;
2. 提到了一个减少磁盘存储空间的办法:将HDFS通常的replica为3降到2.2——用2份copy+2份datacorrect codes;或者考虑 HDFS RAID。另外,facebook广泛用gzip压缩要存在hdfs里的data。还有基于PAX的row columnar压缩技术,可以在gzip的基础上减少10%到30%的空间;
3. 通常在end of day才会把HDFS里的raw data导入到hive的table里面,为了解决这种情况下用户及时使用这些data,就引入了Hive的external table。(这个我还不了解)
4. NameNode的scalability方面,adhoc hive的hadoop cluster的namenode使用的是48GB的内存。facebook除了优化namenode数据结构外尝试做的几件事:combine files into one archive;开发了HiveCombinedFileInputFormat,这玩意的好处是一个maptask可以读在这个node上的不同文件的block。(传统的map task的InputFormat只处理一个文件里的block吧。)
5. hive方面:开发很多工具方便hive查询,大大提高效率(否则写mapreduce程序对熟悉sql的开发人员来说过于复杂)。还有就是能够isolate一些用户写的很差的hive查询(这些查询没准会导致机器crash)。
6. 对periodical batch job和ad hoc job的处置;这会牵涉到resource sharing的问题,facebook为job tracker引入了fair shedular;
7. cluster资源的监控cpu、memory、network、jvm等等,load balance的监控等等。。。
7.
分享到:
相关推荐
### Facebook的数据仓库与分析基础设施 #### 摘要与背景 Facebook作为一个全球性的社交网络平台,在处理海量数据方面面临着前所未有的挑战。为了支持各种工程团队和非工程团队的需求,包括但不限于数据分析、业务...
HIVE Data Warehousing & Analytics on Hadoop.ppt
《Oracle Data Warehousing and Business Intelligence Solutions》是一本深入探讨Oracle在数据仓库和商业智能解决方案领域的专著。本书针对Oracle技术在大数据管理和分析方面的应用进行了全面的阐述,旨在帮助企业...
Oracle DBA Guide to Data Warehousing and Star Schemas-Oracle数据仓库的系统管理
在压缩包中,"Encyclopedia.of.Data.Warehousing.and.Mining.Second.Edition.pdf"是本书的主要内容,读者可以通过这个PDF文件获取详细的理论和案例。"下载说明.HTM"可能是关于如何获取和使用资源的说明,而"readme....
Data Analytics and Linux Operating System. Beginners Guide to Learn Data Analytics, Predictive Analytics and Data Science with Linux Operating System (Hacking Freedom Data Driven) This is a 2 book ...
- **Hector Garcia-Molina, Wilburt Juan Labio, Janet Wiener, 和 Yue Zhuge** 在《PODC》会议上发表的一篇文章“Distributed and parallel computing issues in data warehousing”(1998年)探讨了分布式和并行...
"Data Analytics with Hadoop: An Introduction for Data Scientists" ISBN: 1491913703 | 2016 | PDF | 288 pages | 7 MB Ready to use statistical and machine-learning techniques across large data sets? ...
根据提供的文件信息,我们可以深入探讨Oracle Data Warehousing Guide的关键知识点,包括其背景、特性以及如何在实际场景中应用这些技术。 ### Oracle 数据仓库概述 Oracle Data Warehousing Guide是一本指导书,...
How data management, data mining, data integration and data warehousing work together A step-by-step guide for conducting data analysis for your business An organizational guide to data analytics ...
数据仓库 Data Warehousing Fundamentals
Oracle Database 10g Data Warehousing 是Oracle公司推出的一个专门针对数据仓库应用场景的数据库系统版本。这个系统在设计上充分考虑了大数据量处理、高效查询和分析的需求,为企业的决策支持系统提供了强大的支撑...
【Napa:谷歌大规模数据仓库中的高性能查询支持】 在谷歌,Napa是一个为应对海量应用数据存储和服务而设计和部署的分析型数据管理系统。这些数据为业务用户提供宝贵的洞察力,而Napa的目标是在满足极端的扩展性、亚...
《Oracle9i Data Warehousing Guide》是一份详尽的文档,旨在为用户介绍如何使用Oracle9i数据库进行高效的数据仓库建设和管理。该文档发布于2001年6月,版本号为1(9.0.1),是针对Oracle9i这一版本数据库的数据仓库...
1 Learn how to leverage Big Data ...3 Understand how to optimize and tune your current data warehouse infrastructure and integrate newer infrastructure matching data processing workloads and requirements
《数据仓库建模技术》是IT领域内关于数据仓库设计与构建的重要参考资料,由Chuck Ballard、Dirk Herreman、Don Schau、Rhonda Bell、Eunsaeng Kim和Ann Valencic等多位专家共同撰写,由IBM国际技术支持组织出版。...