`
lc_koven
  • 浏览: 352596 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

看facebook分享hbase经验的笔记

阅读更多

 

http://www.qconbeijing.com/download/Nicolas.pdf

重点看了下facebook做了哪些改进以及他们的运维经验,比较重要的有以下几点:

 

改进:

1 加强了行级的ACID约束

2 改善了数据的分布规则,可以配置hdfs的replicas所在节点

3 改写了master的assign规则,利用zk来进行assign

4 不用停机地重启cluster

5 改进了compaction策略

6 批量查询的优化

7 对压缩进行了改进

 

运维经验:

1 事先切分好的region,控制region数目以及split的时机

 

另外,对dark lanch是怎样做的比较感兴趣

分享到:
评论
1 楼 wangjinpeng 2011-11-12  
事先切分好的region,控制region数目以及split的时机

这条觉得非常赞同,如果可以预先定义好region的rowkey range,然后尽量避免split,控制split的时机,split对吞吐量的影响比较大。

Compaction策略的确需要改变,如果delete不是特别频繁,完全可以禁止掉major compaction,minor compaction可以经常做,不过可以对minor compaction的store file的准入条件进行更加严格的限制,使每次minor都是一些小文件合并为大文件,然后等到split的之前再进行一次major compaction,之后可以一下做一次或者多次split。 感觉这样系统的性能可控,不过这种情况下做一次split就会很恐怖。

compaction, split的策略真是很难做到十全十美啊~~~

相关推荐

    HBase自学笔记

    许多知名互联网公司都在其内部应用了HBase技术,例如 **Facebook**、**Twitter**、**Yahoo!** 和 **Adobe**。它们利用HBase的强大功能来处理各种大数据挑战,如社交媒体数据管理、用户行为分析等。 以上就是HBase...

    hadoop笔记

    7. Pig:Pig是Facebook开发的高级数据处理语言,用于分析大规模数据集。Pig Latin是其编程语言,简化了大规模数据处理任务的编写,通过编译器将其转换为MapReduce作业执行。 8. Oozie:Oozie是Hadoop的工作流调度...

    大数据、数据分析领域工具笔记

    2. HBase:基于Hadoop的NoSQL数据库,适用于实时读写、高吞吐量的数据存储。 3. Cassandra:Facebook开发的分布式NoSQL数据库,支持跨数据中心复制,适合大规模、高可用性场景。 4. MongoDB:文档型数据库,灵活的...

    大数据技术学习笔记之Hive.zip

    在大数据处理领域,Hive是一个不可或缺的工具,它是由Facebook开源的、基于Hadoop的数据仓库系统,用于处理和分析大规模数据集。这份“大数据技术学习笔记之Hive”旨在帮助我们深入理解并掌握Hive的核心概念和技术...

    大数据的个人练习和学习的笔记

    本笔记将深入探讨大数据的关键概念、技术框架以及实际应用,旨在帮助个人学习者提升在这个领域的专业技能。 一、大数据基础概念 大数据不仅仅是数据的量大,更体现在其复杂性和价值潜力上。它涵盖了三个关键特征,...

    NoSQL笔记.doc

    然而,NoSQL数据库,如Cassandra和HBase,采用分布式集群模式,通过增加服务器节点,可以线性扩展性能,确保服务的连续性和可用性,这对于需要24小时不间断服务的网站至关重要。 NoSQL数据库在设计上牺牲了部分关系...

    NOSql数据库笔记

    - **eBay、淘宝、Flickr和Twitter**等大型网站分享了他们的架构经验,包括缓存策略、运维管理和代码协同。 5. **反模式** - **单点失败**:系统的关键组件只有一份,故障会导致整个系统瘫痪。 - **同步调用**:...

    Hadoop学习几笔

    5第五天笔记可能详细记录了作者在学习这些组件时的实践经验、遇到的问题和解决方案,可能包括配置步骤、代码示例、性能优化技巧等。通过深入研究这些笔记,读者可以更好地理解如何在实际项目中运用Hadoop生态系统,...

    hadoop实战——初级部分学习笔记 2

    1. **市场需求**:当前社会产生了大量的数据,例如每分钟Twitter上就有超过10万条消息发布,Facebook的浏览量达到600万次,而国内如淘宝等电商平台在特殊节日如双十一期间更是数据量激增。这些都需要高效的数据处理...

    hive学习笔记

    Hive最初由Facebook开发,旨在简化大数据处理,使得非编程背景的用户也能进行数据分析。以下是关于Hive的一些关键知识点: 1. **Hive架构**:Hive基于Hadoop,由元数据存储、驱动器和执行器三部分组成。元数据存储...

    云基准数据管理的理解与实践

    - **Facebook**:Cassandra作为一款高性能的分布式NoSQL数据库系统,在大规模数据处理方面表现突出。 - **Microsoft**:Azure平台为用户提供了一整套云服务,包括存储、计算、数据分析等。 - **Yahoo!**:PNUTS是一...

    Hive-编程指南

    Hive是由Facebook开源的一种基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询分布式存储的数据,为大数据分析提供了方便。 一、Hive简介 Hive是建立在Hadoop之上的数据仓库系统,主要...

    zusammenfassung-vsk:卢塞恩应用科技大学 VSK 模块学习目标总结

    4. **分布式数据存储**:研究分布式数据库、键值存储、列族数据库(如HBase)和文档数据库(如MongoDB),了解CAP定理和数据一致性模型。 5. **分布式计算模型**:分析MapReduce、GFS(Google文件系统)、Pregel等...

Global site tag (gtag.js) - Google Analytics