摘要:2017云栖大会阿里云大数据计算服务(MaxCompute)专场,众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起,进而谈及大数据能够公司运营带来的好处,最后重点分析了众安保险的数据平台建设,包括任务调度、元数据和数据质量监控等。
原文地址:http://click.aliyun.com/m/43993/
2017云栖大会阿里云大数据计算服务(MaxCompute)专场,众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起,进而谈及大数据能够为公司运营带来的好处,最后重点分析了众安保险的数据平台建设,包括任务调度、元数据和数据质量监控等。
以下是精彩内容整理:
众安保险作为国内第一家互联网公司,我们从创立之初计算平台就使用MaxCompute。
图片描述
为什么会选择MaxCompute?
成立之初我们也在自建平台和MaxCompute上作出了选择,我们主要从五方面考虑:健壮性、与应用系统交互、扩展性、强数据安全和低成本。
健壮性:7*24的服务能力、异常恢复时长;
与应用系统交互:数据源的获取与数据输出效率和成本;
扩展性:当数据成倍增长时,计算能力弹性;
数据安全:数据异常攻击防护,提供多层沙箱防护及权限体系;
成本:自建成本和MaxCompute成本对比。
图片描述
首先,2013年能够提供完整能力的计算平台并不是很多,MaxCompute孵化于阿里金融的生产系统验证后对外输出,支持5000台以上的计算能力,满足我们对弹性和扩展性的要求;其次,我们对阿里云专业能力的信任,可以看到阿里云在国内的计算份额遥遥领先;最后,MaxCompute不仅仅是一个计算平台,它还提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)开发工具,这会降低我们最初加工开发过程中的开发成本。
大数据能给公司运营带来哪些颠覆?
图片描述
云计算和大数据整体生态链的发展如图,国内云计算年增长率超60%,AWS新增功能数可观,云计算正日益接近生活,从hadoop诞生以来,十年间产品丰富性大大增加,生态圈越来越大。
大数据不仅仅在于它的工具、平台和生态圈,更在于它能够赋能于人、场景,通过赋能支持生态发展,阿里每天都有上万人在使用MaxCompute在工作,大数据是对人赋能创造的新职业,反过来从业者也会反馈大数据,丰富大数据的场景,在十年的发展中,人和资源的投入也在反馈结果,同时还有资本的良性回报继续投入大数据行业,形成闭环。
图片描述
众安是一家以保险为核心的公司,我们提供跨生态的连接,与各个子行业进行跨生态合作,包括电商、3C、汽车等,这些产品打通了各个生态伙伴同时也会增加我们对用户的接触,通过与300多个生态伙伴的合作,我们积累了大量用户数据及信息。最终,我们希望众安既能服务这些生态,又能通过数据积累、客户积累、品牌积累来做大做强众安自己的开放平台。
截至到2016年底,我们服务的用户为4.92亿,保单数72亿,为中国互联网的新生代提供了第一张保单。其中,30岁以下人群大约占比50%,说明众安保险代表这新的生活理念方式,而且这群人群有着充足的资产生产能力,他们对保险的认可度和意识是更高的,他们是将来的消费主力。
众安保险的数据平台建设
每串数字后面都是公司全体员工努力的结果,那么,基于MaxCompute数据平台做了哪些事情呢?怎样支撑业务快速发展?
图片描述
数据平台分为平台工具、数据监控和数据服务。数据本身是有多源异构数据,数据价值体现在于它的流动性和开放性,只有把数据经过加工、质检提供到用户手中,才能产生价值。平台工具包括MaxCompute、数据同步、任务调度和计算存储管理;数据监控有预警系统、元数据、血缘关系和数据质量;数据服务包括数据门户、自助取数和服务API。
任务调度系统
图片描述
任务调度本质上是要完成数据加工工作流的状态,数据加工是一个多链路的过程,如何保证数据顺序的正确性,我们支持日、周、月等不同周期调度,支持分组优先级,支持小时任务,支持自定义时间调度,日任务量超1W。
任务调度是一个有向图,每一个节点都可以看到来源数据是非常多的,红色数据代表出错状态,蓝色代表成功,绿色代表正在运行,黄色是存在的状态。不同任务加工来源于很多的数据源,就会给我们带来困惑,如果信息出现错误,那么到底是自身任务出错还是上游数据源结果引来的问题呢?那么,怎么让开发更快的定位问题,减轻开发成本,提供统一口径?我们通过元数据来解决。
元数据
图片描述
数据包括打通数据和数据间关系,利于模型优化和异常定位,打通数据与人之间的关系,利于成本优化。数据关系包括数据字典信息、血缘信息、存储和产出信息、表责任人信息和业务元数据信息,推动存储计算优化来降低MaxCompute使用成本。
左图为数据间的基本信息,还有数据产出信息、血缘关系;右图展示表的来源,输出会影响下一轮哪些表,获取信息以后,我们会把数据和数据之间打通,人和数据之间打通。
图片描述
存储优化后成本下降了30%,通过存储计算优化降低无效存储,计算效率会提升。
数据质量监控
图片描述
数据质量监控通过切片方式嵌入到任务自身执行状态中,执行任务的自处理,自己判定自己的状态,基于规则与模板验证数据的准确性,只有Ok才会被下游使用,这样避免了数据污染,自身暴露错误不依赖于下游。它的特点是利用MaxCompute的统计项收集功能,规则是统计项规则,包含表和字段级别,模板为规则+周期+统计函数的整合,把事后监控变为事中监控,支持用户自定义,覆盖重点任务,覆盖率30%。
数据服务与安全
在消费时,我们会去考虑哪些东西呢?数据是要开放和流通的,在开放和流通中我们还要小心什么?数据泄露和安全都会导致公司的灾难。
在技术上,我们基于ACL与角色管理,赋予不同等级,我们做了表和字段级别的权限等级控制,建立敏感信息掩码、涉密信息的加密审批流程,开放与安全,基于技术控制和流程控制,各种角色需要数据。开放基础是安全控制,开放关键在流程管理,我们在开放与安全间做平衡。
在数据平台的建设中,要保持可用、易用、适用三个阶段,需要经历多次迭代升级系统。数据即服务,要满足用户不同的数据需求,数据是基础设施,每家公司都面临数据平台的搭建和使用。
MaxCompute生态的丰富,资源与工具的共享,对挖掘算法的深入及支持都可强大到满足我们的使用需求,我们可以有更多时间去接触用户,为用户创造价值。MaxCompute成本也在逐步下降。未来,希望MaxCompute提供更多种模式支持,包括UDF\资源库如IP库,包括挖掘的python算法包、人工智能平台支持。
识别以下二维码,阅读更多干货
图片描述
分享到:
相关推荐
阿里云MaxCompute助力众安保险快速成长 MaxCompute是阿里云生态系统中的一款大数据处理平台,旨在帮助企业快速构建数据价值平台,实现数据驱动的业务增长。下面是MaxCompute助力众安保险快速成长的知识点总结: ...
综上所述,MaxCompute以其强大的数据处理能力、高扩展性、稳定性和安全性,成功助力众安保险实现了快速成长。通过利用MaxCompute,众安保险得以在大数据时代背景下,更好地利用数据驱动业务创新,提升核心竞争力。
1. IaaS(基础设施即服务):提供计算、存储、网络等基础设施资源,众安保险可以快速部署和管理应用程序,而无需投资和维护底层硬件。 2. PaaS(平台即服务):提供开发、测试、部署和管理应用程序的平台,有助于...
众安保险,作为中国第一家互联网保险公司,通过科技手段重塑了保险价值链,并基于五大业务生态来提供个性化服务。 首先,众安保险的业务模式与中国传统的保险公司在多个方面存在本质区别。众安保险不设立分支机构,...
复旦大学与众安保险联合推出的《2021保险数字化营销白皮书》深入剖析了保险业数字化营销的现状、挑战与未来发展方向,为行业内部的改革提供了宝贵的指导和启示。 保险业天然具有“数字属性”,数据的积累和分析是...
众安保险,作为我国首家持有互联网保险牌照的公司,自起步以来就以互联网场景为依托,服务于海量用户,提供小额高频、碎片化的产品。面对日增的业务需求,众安保险逐渐转向分布式架构,以应对超大规模、超多渠道、...
云效作为一款强大的云服务工具,帮助众安保险实现了效能的渐进提升,适应了其快速迭代的研发模式,并解决了在金融保险行业中遇到的安全挑战。 首先,众安保险选择云效的主要原因在于其互联网特性和金融产品的快速...
万能险再迎重磅新规;众安科技发布“保险中介核心2.0”.pdf
众安保险、应用运维梁亮 在2018云栖大会·上海峰会中做了题为《众安保险云上之路》的分享,就互联网 保险的概念、现状及未来等方面的内容做了深入的分析。
【众安保险】是中国首家互联网保险公司,成立于2013年,总部位于上海,通过互联网进行业务运营。该公司没有实体分支机构,而是利用先进的科技手段,如大数据、区块链、云计算和人工智能,来创新保险产品和服务。2017...
众安保险作为一家保险科技公司,其业务布局和战略发展方向体现了当前保险业与科技创新紧密结合的趋势,以下将详细介绍众安保险的核心业务、科技应用以及在保险行业中的定位。 首先,众安保险立足于电商平台,通过...
【标题】"从探索者到步道者众安保险云原生之路"揭示了众安保险在云原生领域的深入实践和转型历程。云原生是一种现代化的应用开发和部署方式,它强调利用云计算的弹性、可扩展性和敏捷性,通过微服务、容器化、持续...
4. **实时响应**:通过ClickHouse,众安保险能够快速响应用户的标签需求,实现用户标签的实时计算和更新,提高了业务灵活性。 在实际应用中,ClickHouse解决了原始系统使用Elasticsearch保存用户标签数据时存在的...
众安保险-保险科技新势力洞察报告-2019.12-31页.pdf
众安科技发布的再保险区块链技术白皮书。区块链技术能够以安全、低成本和高效的方式实现再保 险数据的共享和交换。在运用该技术的过程中,要求从直保 公司开始,在整个再保险交易链上,都以区块链的记账方式 真实...
### Flink在众安保险金融业务的应用概述 #### 实时计算架构 众安保险采用了基于Flink的实时计算架构,该架构通过实时大盘展示用户标签、特征工程、数据服务、实时监控以及数据应用等OLAP层。它使用ODS层作为数据源...
【众安保险碳中和系列报告】探讨了保险业在低碳时代所面临的挑战与机遇,强调了保险公司在应对气候变化和实现碳中和目标中的角色。报告指出,保险公司作为风险管理者和投资者,必须清晰理解碳中和的趋势,并积极参与...