`
kirayuan
  • 浏览: 39765 次
文章分类
社区版块
存档分类
最新评论

hbase+hadoop运维的一点经验

 
阅读更多

目前系统上线,不断的有新问题,也不断的在总结一些经验,发在这里,做下mark,同时也为hbase使用者提供一些思路吧。

1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,client超时;第二个问题是regionserver做compact的过程有可能被单条rowkey的数据塞满内存造成OOM

2、datanode的handler的数量不要默认值,太少,要在100左右,另外regionserver的handler的数量在200左右比较合适

3、resultScannser使用完毕记得关闭

4、HTablePool可以管理HTable。查询结束后直接用HTablePool.put(HTable t)来回收,入库结束后记得table.flushCommit()后再回收

5、mapred.local.dir这个参数是mapreduce会在机器的硬盘上做临时文件的存放,如果挂载的多块盘请将每个盘都配上,提升总体性能

6、map阶段的输出可以配置LZO压缩,这样能有效节省map->reduce阶段的网络带宽,不过会提高cpu的占用率

7、多网卡绑定能有效提高hadoop体系的网络带宽

8、bulkload目前测试的性能在单节点51GB/小时左右,希望其他有做过的同学能交流一下bulkload方面的问题。
分享到:
评论

相关推荐

    hadoop运维经验分享

    在Hadoop运维领域,经验是宝贵的财富。2012年华东运维技术大会上分享的"Hadoop运维经验"涵盖了Hadoop生态系统中的多个关键方面,旨在帮助IT专业人士更好地管理和优化大规模数据处理环境。以下是对这些运维经验的详细...

    ganglia+hadoop+hbase nagios 学习参考链接

    Ganglia、Hadoop和HBase都是大数据领域的重要组件,而Nagios则是一种广泛使用的系统监控工具。这篇博文链接提供的资源聚焦于如何将这些技术结合使用,并进行有效的监控。 Ganglia是一个分布式监控系统,能够收集并...

    大数据云计算技术 Hadoop运维杂记(共21页).rar

    标题中的“大数据云计算技术 Hadoop运维杂记”表明这是一份关于Hadoop在大数据云计算环境下的运维实践文档。Hadoop是Apache基金会开发的一个开源框架,主要用于处理和存储大规模数据,尤其适合于处理非结构化和半...

    hbase常见错误整理3年运维经验整理

    ### HBase常见错误及解决方案:3年运维经验总结 #### 一、配置第三方依赖包HADOOP_CLASSPATH和HBase问题 **问题描述** 在本地开发HBase程序时,虽然本地编译能够通过(因为在IDE中已经导入了必要的jar包),但在...

    安装包-hbase+apache.zip

    4. **配置Hadoop**:如果HBase将与Hadoop一起使用,需要在Hadoop的配置文件中指定HBase的位置,比如在`core-site.xml`中添加`fs.defaultFS`指向HDFS的URL。 5. **启动HBase**:通过执行`bin/start-hbase.sh`脚本来...

    ETL+hadoop采集

    6. **hbase-site.xml(可选)**:如果需要使用HBase,则需从集群中的任意节点复制`/etc/hbase/2.5.0.0-1245/0/hbase-site.xml`到`SDCETLDesigner\common\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp...

    Google +Hadoop使用编程

    对于运维团队来说,Chukwa是一个非常有用的工具,可以帮助他们监控和优化集群的性能。 #### Avro:数据序列化框架 **Avro** 是一个数据序列化系统,用于支持数据交换和RPC(远程过程调用)。它提供了一种紧凑高效...

    HBase 实践 如何破解 HBase+ElasticSearch 组合使用遇到的难题.docx

    HBase 是一个基于 Hadoop 的分布式键值存储系统,适用于大规模半结构化和结构化数据的存储和高并发查询;而 ElasticSearch 是一个强大的分布式全文搜索引擎,擅长复杂查询和数据分析。在处理大量数据时,这两者常常...

    hadoop集群维护手册.pdf

    1. 停止集群,包括 Hadoop 和 HBase。 2. 在 Hadoop Namenode 的配置文件中添加新节点的主机名。 3. 执行 bin/start-all.sh 命令启动集群。 4. 等待数据平衡完成。 三、数据平衡 数据平衡是 Hadoop 集群维护的重要...

    Hadoop2.7.1+Hbase1.2.1集群环境搭建(7)hbase 性能优化

    7. **HBase运维参考**:在提供的“hbase运维参考手册(项目实战).docx”文档中,详细介绍了HBase的日常维护、故障排查和性能优化方法,包括但不限于日志分析、监控指标解读、常见问题解决等,对于实际运维工作具有很...

    大数据平台技术实施与运维规范-Hadoop 分册.docx

    5. HBase:HBase是Hadoop的分布式数据库,用于存储结构化数据。 6. Hive:Hive是Hadoop的数据仓库工具,用于处理结构化数据。 7. Sqoop:Sqoop是Hadoop的数据转换工具,用于将数据从关系数据库转换到Hadoop。 8. ...

    《HBASE系统运维实践》淘宝资深数据库工程师许飞飞

    备份与恢复是数据库运维中不可忽视的部分,HBase提供了多种备份方式如HBase自带的快照功能、利用Hadoop生态的备份机制等。 HBase的LSMTree(Log-Structured Merge-Tree)是一种存储结构,它把数据的插入操作转化为...

    Hadoop、HBase、Zookeeper安装部署

    在大数据处理领域,Hadoop、HBase和Zookeeper是三个至关重要的组件,它们共同构建了高效、可扩展的数据存储和管理基础设施。以下是关于这三个技术的详细介绍以及安装部署的关键步骤。 **Hadoop** 是一个开源的...

    hadoop—集群维护手册分享.pdf

    1. 停止集群,包括 Hadoop 和 HBase。 2. 在 Hadoop Namenode 的配置文件中添加新节点的 host。 3. 执行 bin/start-all.sh 启动集群。 4. 选择一种平衡方式: * 如果不手动平衡,插入的数据将会放在新添加的节点上...

    Hadoop与HBase部署文档

    【Hadoop与HBase部署文档】 Hadoop是一个开源的分布式计算框架,主要由Apache基金会维护。它被设计成能够处理和存储大量数据,是大数据处理领域的重要工具。Hadoop的核心组件包括HDFS(Hadoop Distributed File ...

    Hadoop开发、运维和调优实战考试资料.pdf

    《Hadoop开发、运维和调优实战》考试资料概述 Hadoop是一个开源的分布式计算框架,由Apache软件基金会维护,主要用于处理和存储大规模数据集。本资料主要涵盖了Hadoop的开发、运维和调优的相关知识,适合对Hadoop有...

    hadoop hbase从入门到精通

    《Hadoop之HBase从入门到精通》是一个深入学习Hadoop和HBase的全面指南,旨在帮助初学者和有经验的开发者快速掌握这两个强大的大数据处理工具。Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价...

    HBase权威指南_Hadoop权威指南_pdf_

    《HBase权威指南》是Hadoop生态中关于分布式列式数据库HBase的重要参考资料,它深入浅出地介绍了如何利用HBase构建大规模数据存储系统。这本书与《Hadoop权威指南》一起,构成了理解大数据处理和存储的关键知识体系...

Global site tag (gtag.js) - Google Analytics