`
猫耳呀
  • 浏览: 165751 次
社区版块
存档分类
最新评论

阿里HBase的数据管道设施实践与演进

阅读更多

摘要:第九届中国数据库技术大会,阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解。主要从数据导入场景、 HBase Bulkload功能、HImporter系统、数据导出场景、HExporter系统这些部分进行了讲述。

直播视频请点击
PPT下载请点击
精彩视频整理:

数据导入场景

生意参谋

生意参谋是一种为商家服务,帮助商家进行决策和运营的数据产品。如在淘宝或天猫上开一家店,生意参谋会提供店里每天进入的流量、转化率、客户的画像和同行业进行对比这些数据属于什么位置。商家可以根据流量分析、活动分析和行业分析去进行决策。可以根据平时日志、点击量和访问量,数据库把数据通过实时的流处理写入HBase。有一部分写到离线系统里,定期做一些清洗和计算再写入HBase,然后供业务去查询 HBase。

蚂蚁风控

在蚂蚁上任何一笔交易支付都会调用风控,风控主要是去看这次交易是否属于同一个设备,是否是经常交易的地点,以及交易的店铺信息。它必须在100ms—200ms把风险做完,风控是根据长期的历史信息、近期历史的信息和实时的信息三个方向做综合考量。用户的输入会实时的写入HBase,同时这个实时的信息增量也会导入到离线系统里面,离线系统会定期的对数据进行计算,计算的数据结果会作为历史或近期历史再写回HBase,一个支付可能会调百十次的风控,而且需要在百毫秒内进行返回。

数据导入需要解决的问题

2013年刚刚开始做数据导入的时候面临的更多的是功能需求性的问题,现在需要考虑的是导入的周期性调度、异构数据源多、导入效率高和多集群下的数据一致性的问题。前两个问题更适合由平台化去解决,HBase的数据导入更关注的是导入效率和多集群下的数据的一致性。

什么是Bulkload?Bulkload有什么功能?


Bulkload使用的是一种新的结构LSM Tree进行写入更新,其结构如上图所示。使用Application code 进行数据写入,数据会被写入到MemStore,MemStore在HBase里是一个跳表,可以把它看成一个有序的列表,并不断往里面插入数据。当数据达到一定量时就会启动flush对数据进行编码和压缩,并写成HFile。HFile是由索引块和数据块组成的文件结构,其特点是只读性,生成HFile之后就不可改了。当用户进行读取数据的时候,就会从三个HFile和一个MemStore进行查找进行读取。这个结构的优化就是就把随机的写变成了有序的写。Bulkload就可以把上千上万条数据在毫秒内加入到HBase里。所以Bulkload的优势如下:

  • 高吞吐
  • 不需要WAL
  • 避免small compaction
  • 支持离线构建

     

Bulkload的导入结构如上图所示,数据来源于数仓,首先根据HBase的分区规则对数据进行分区和排序。然后会生成Partition Data,需要写一个HBase插进去。同步中心就会调动一个作业,作业内部会有很多的tasks,每个task独立的执行把文件读出,写到HDFS上,形成一个HFile文件。当把所有文件写完,同步中心就会调Bulkload指令到HBase,把所有的HFile一次性的load进去。
以前采用的是多集群导入的方法,但是多集群导入有很多缺点如下:

  • 很难保证多个任务同时完成,导致一定时间窗口内数据不一致
  • 调度后的运行环境不一致
  • 网络延迟不一致
  • 失败重试
    集群部署对业务不透明的缺点:
  • 需要配置多个任务
  • 集群迁移需要重新配置任务
    为了保证数据的一致性,采用了逻辑集群导入法。

逻辑集群的流程如上图所示,首先进行分区合并,然后进行双数据流处理,把流分别写到Active和Backup里,当Active和Backup的HFile文件写完后执行Bulkload。因为Bulkload是毫秒级别的,所以能实现一致性。
多任务和逻辑集群的差别比较如下:

  • 多任务模式:需要重复配置,是不透明的,很难保证一致性,分区排序
    需要执行两次,编码压缩两次。
  • 逻辑集群模式:配置一次,迁移无感知,在一致性上达到毫秒级,分区排序是执行一次,但分区数量变多,编码压缩一次。
    随着业务做得越来越大,这种导入就会遇到新的线上问题,如扩展性、资源利用率、研发效率、监控等。

什么是HImporter系统?

HImporter是用于辅助数据同步的中间层,他会把所有HFile的构建,加载逻辑下沉到HImporter层。


HImporter所处的位置如上图所示。

HImporter的优势

  • 分布式水平扩展,同一个作业的不同任务可以调度到HImporter的不同worker节点
  • 提高资源利用率,将压缩等CPU密集操作下降到HImporter
  • 快速迭代,HImporter的运维和迭代与同步中心独立
  • 独立监控,HImporter可按照自己的需求实现监控

HImporter 功能迭代

功能迭代主要包括表属性感知、保证本地化率、支持轻量计算和安全隔离。其中表属性感知就是感知特性,并保证特征不会变,主要包括、混合存储、新压缩编码、表级别副本数;保证本地化率是将Hfile写入到分区所在服务器,保证本地化率和存储特性,对一些rt敏感的业务效果明显;支持轻量计算就是支持MD5,字符串拼接等函数;安全隔离是避免对外暴露HDFS地址、支持Task级别重试。

数据导出场景

菜鸟联盟


菜鸟联盟的场景如上图所示。一个物流详情会传到HBase,HBase会传到数据仓库,数据仓会产生报表,然后去训练路由算法。

淘宝客服


淘宝客服的一个退款应用场景如上图。这是一个逆向链接,把退款、纠纷、退款物流、退款费用等实时的写入到HBase里,HBase会实时的写入queue里,blink流系统会消费queue产生一些数据会返回到HBase,blink输出会支撑智能服务、客户监控等。

增量数据导出需要解决的问题

增量数据导出需要解决的问题主要是离线数据的T+1处理特点、吞吐量 、实时性、主备流量切换等。
早期的方案是会周期性的从HDFS里把所有的日志罗列出来,然后对日志进行排序会产生一个有序的时间流。取work里同步时间最短的作为最终的同步时间。这种方案具有对NN节点造成很大压力、无法应对主备切换、日志热点处理能力低等问题。

HExporter系统


HExporter1.0如上图所示,HExporter1.0优势主要有主备流量切换不影响数据导出,能够识别数据来源,过滤非原始数据;独立的同步时间流,能够保障数据按有序时间分区Dump到数据仓库;复用HBase replication框架,能够降低开发工作量,复用HBase的监控,运维体系。
HExporter1.0 优化主要包括以下五点:

  • 减少拓扑网络中的数据发送,备库避免向Exporter发送重复数据;
  • 远程辅助消化器,空闲的机器帮助消化热点;
  • 避免发送小包,HExporter在接收到小包后,等待一段时间再处理;
  • 同步通道配置隔离,实时消费链路和离线消费链路可以采用不同的配置;
  • 数据发送前压缩。
    HExporter1.0的问题是业务写入流量产生高峰,离线出现同步延迟;HBase升级速度慢。然后我们就有了以下解决思路,离线同步的资源可以和在线资源隔离,利用离线大池子可以削峰填谷;Exporter的worker是无状态的,如果把所有逻辑都放在Exporter,那么升级、扩容会简单快速。然后就产生了HExporter2.0。

HExporter2.0如上图所示

总结

ALiHBase数据通道的导入和导出都是添加了中间层,中间层的核心价值易扩展、可靠性高、迭代快和稳定。因为采用分布式水平扩展更易扩展;采用自主识别主备切换,封装对HBase访问更可靠;采用架构解耦,快速迭代使迭代速度更快;因为无状态,节点对等所以更加稳定。

原文链接

分享到:
评论

相关推荐

    阿里HBase的数据管道设施实践与演进_阿里巴巴.zip

    本篇文章将深入探讨阿里在HBase上的数据管道设施的实践与演进,帮助我们理解如何在大型企业环境中构建和优化数据处理流程。 首先,我们需要理解HBase的基本概念。HBase是基于Google的Bigtable设计的开源非关系型...

    阿里HBase的数据管道设施实践与演进_阿里巴巴.pdf

    【阿里HBase的数据管道设施实践与演进】深入探讨了阿里巴巴在大数据处理中使用HBase这一分布式列式数据库的经验和优化策略。HBase作为一种高效、高性能的存储解决方案,广泛应用于日志分析、流量分析、活动分析等多...

    阿里HBase的数据管道设施技术.pptx

    阿里HBase的数据管道设施技术是针对大数据存储与处理的关键组件,尤其在大数据场景下,高效、稳定的数据导入和导出是提升系统性能和确保数据一致性的重要环节。此技术主要涉及两个核心工具:HBase Bulkload 和 ...

    阿里HBase业务设计实践

    阿里巴巴的HBase业务设计实践主要聚焦于如何高效地利用HBase处理大规模数据集。HBase是一种基于Hadoop的分布式列式存储系统,其设计目标是为海量数据提供高吞吐量的随机读写访问能力,并支持灵活的数据模式。 **...

    阿里的HBase业务和容灾实践.pdf

    阿里的HBase业务和容灾实践,阿里穆公大作,深入阿里内部使用,使用方向推荐必备。 阿里的HBase业务和容灾实践,阿里穆公大作,深入阿里内部使用,使用方向推荐必备。 阿里的HBase业务和容灾实践,阿里穆公...

    hbase数据可视化系统

    《HBase数据可视化系统构建详解》 在大数据领域,HBase作为一款分布式列式数据库,因其高并发、低延迟和大规模存储的特点,被广泛应用在实时数据处理和分析中。然而,对于非技术人员来说,直接操作HBase命令行进行...

    阿里的HBase业务和容灾实践

    标题《阿里的HBase业务和容灾实践》所涉及的知识点非常丰富,覆盖了HBase的基础知识、业务应用、产品线使用建议、容灾策略以及HBase与MySQL的对比。下面将详细解读这些知识点: 1. HBase简介: HBase是一种开源的非...

    分布式数据库HBase安装配置与实践.doc

    【分布式数据库HBase安装配置与实践】 HBase是一款基于Google Bigtable理念设计的开源NoSQL数据库,它构建在Hadoop之上,适用于处理大规模数据。在本文档中,我们将详细介绍如何在Linux环境中安装、配置和实践HBase...

    阿里巴巴HBase的一些实践与探索.pdf

    【阿里巴巴HBase实践与探索】 HBase,全称为Hadoop Database,是基于Google BigTable设计理念构建的开源、高可靠性、高性能、可伸缩的分布式存储系统。它属于NoSQL数据库,特别适合处理海量数据,尤其在大数据场景...

    kettle集群搭建以及使用kettle将mysql数据转换为Hbase数据

    通过本文的介绍,我们了解了Kettle集群的基本概念、搭建步骤以及如何使用Kettle将MySQL数据转换为HBase数据的过程。Kettle作为一款强大的数据集成工具,在企业级数据处理中扮演着重要的角色,尤其是在大数据时代背景...

    高可用HBase的技术实践

    阿里巴巴自2011年5月开始使用HBase,至今已有超过200个业务在使用HBase,并且分布在10多个数据中心。单个HBase集群可达到上千台服务器的规模。HBase在阿里巴巴的应用主要包括以下几个方面: 1. **在线存取**:用于...

    Sqoop与HBase间数据高效迁移实践与注意事项

    内容概要:本文详细介绍了如何使用Sqoop在Hadoop生态系统与HBase之间传输数据的具体步骤。涵盖了准备工作、命令编写与执行、任务监控及验证,同时关注了导入和导出过程中数据的一致性和完整性保障,提出了数据校验、...

    大数据技术分享 Hadoop技术分享 阿里HBase在搜索领域的设计与实践 共28页.pdf

    本分享将深入探讨阿里在搜索领域如何利用HBase这一NoSQL数据库进行设计与实践,旨在揭示大数据解决方案的核心原理和实际应用。 首先,Hadoop作为开源的分布式计算框架,其核心由HDFS(Hadoop Distributed File ...

    浅谈HBASE数据结构设计.pdf

    HBase数据结构设计知识梳理: 1. HBase概述 HBase是Apache Software Foundation旗下的一个开源的非关系型分布式数据库(NoSQL),它是Google Bigtable的开源实现,基于Hadoop文件系统(HDFS)构建。HBase的设计目标...

    「防火墙」阿里巴巴HBase的一些实践与探索 - 安全体系.zip

    「防火墙」阿里巴巴HBase的一些实践与探索 - 安全体系 大数据 Android 安全管理 勒索软件 安全防护

Global site tag (gtag.js) - Google Analytics