`

流式大数据实时处理—技术、平台及应用

阅读更多

编者注:陈纯,计算机应用专家,浙江大学计算机科学与技术学院教授,中国工程院院士。是国家教委“跨世纪优秀人才培养计划”首批入选专家,第三届中国青年科技奖获得者。目前是国家列车智能化工程技术研究中心主任,国务院学位委员会学科评议组成员。陈纯教授长期从事计算机应用领域的前沿研究工作,在著名国际学术期刊和会议发表论文160多篇,曾获国家技术发明奖二等奖1项,国家科技进步奖二等奖2项,国家科技进步三等奖1项,省部级科学技术一等奖6项。

 

今天CNCC 2016在山西太原盛大开幕,开幕演讲中,CCF会士、中国工程院院士、浙江大学陈纯教授做了题为“流式大数据实时处理技术、平台及应用”的报告,以下为报告内容精编。

 

CNCC 2016

 

流式大数据

流式大数据从这个角度看,可以把大数据分成两个:一个是批式大数据,另一个是流式大数据。

 

举个例子来说

我们把数据当成水库的话,水库里面存在的水就是批式大数据,进来的水是流式大数据。

10年前,从传统的三架马车开始到现在组成了60、70个相关庞大的生态圈。重点我们可以看到,从2012年开始,才关注了流式大数据,就是数据流的模式。在之前,所有的大数据算法和系统就是批式大数据,从12年开始才专门针对流式大数据的组建。

 

由于数据流的处理,应用场景主要是两类:

 

一类是互联网
另一类是移动互联网

 

移动互联网和互联网的个性服务,不断提升用户体验对实时要求也是非常高的。一般要样本性的相应,而互联网的传感数据,通过智能分析来经营决策的。这以前大数据的分享,我们可以把它分成事后的风险和追溯,而更重要的应用事中的分析、处理。

 

CNCC 2016

 

一种集群式、分布式的解决方案,但是其实时响应比较慢。

 

另一种是组建流式大数据,即内存计算,但它的实时相应数据规模受限。

但是大数据的处理技术,主要有四个难题。它们分别是:

 

1、基于分布式内存的运行计算

2、可能很多台计算机,每台计算机多CPU,你一个任务下去,在计算机上同时进行内存的计算,它都是可以做到分布存储。

3、海量历史数据高性能的分析

4、当你流进水库的实时,不仅仅是处理流的数据,而且还要把你存在数据库的数据一起建立起来。因为这个时间窗口,要重复计算问题,并且有海量数据的复杂增量要计算。

数据流进来后,怎么样把流式数据跟历史数据一起计算?

所谓大数据,流式是必须要算的,解决办法就可以从增量基础上入手。

 

要用模型解决实际应用的问题

 

张老师说像统计的模型,基于规则的模型,这些模型能够很好的结合。所以要把实施处理的分析模型分开,这样就能针对不同的问题进行可以计算。

 

这四个就是最重要的四大问题,我们现在的研究成果——流立方的实时计算,把数据时间窗口、计算指标加上最核心的增量计算,也就是解决分布的存储的性能,与基于内存的计算更好的结合在一起。

 

流立方

现在我们来介绍下流式大数据实时处理平台,我们知道这个平台不仅仅是流立方计算引擎。结合大数据,相当于流立方的计算引擎要从60多个组件里面,抽取部分构成这么一个平台,同时还要加上分布存储、数据库,包括大数据的云处理平台,还有其他地方来构成这个平台,实际上这个平台是非常强大的系统。

 

下面介绍有应用,这个是流立方应用的框架。

 

红线里面都是以流式大数据存在的计算指标、统计指标,左边是有一个分析处理模型,这个模型是可以基于数学模型指导。所以,当你把一个要解决的问题,比如说:

 

下围棋要学习,就可以把下棋的棋谱传进来。可以在这个平台上进行计算,这是外部应用系统。

 

它可以应用很多,流立方实时平台上在原有基础系统上,做一个并行系统实时检测,通过专业知识、模型来实时分析。

 

下面具体来看几个案例:

 

金融风控反欺诈

CNCC 2016

现在电子支付上,除了蚂蚁金服和微信支付是自己做的风控以外,基本上所有的系统都是基于流立方来做的。

反爬虫系统

CNCC 2016

应用的前景非常的广泛:金融、电信、交通、公安、海关、互联网都可以应用。

 

体会

流数据的实时处理

流式数据的实时分析,一定是有规则、模型的东西。复杂的分析计算,加上实时这两个结合起来,如果能做的好,一定能够加速大数据在各个行业的应用。

 

大数据

我们现在大数据要么就是卖数据,对比数据事后不同的分析来追溯,这个非常重要。

但是我们现在应用最重要,还是要结合不同的空间数据实施流数据分析。这个要有平台才能把所有的数据(互联网、移动互联网还有互联网+)共同体验、提升。

 

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

0
1
分享到:
评论

相关推荐

    流式大数据实时处理技术、平台及应用

    为此,从分析大数据应用场景入手,提出了“流立方”流式大数据实时处理技术和平台,在完整大数据集上实现了低迟滞、高实时的即席查询分析。目前基于“流立方”平台开发的业务系统已应用到金融风控反欺诈、机器防御等...

    水利自动化实时流式大数据的处理研究.docx

    总的来说,水利自动化实时流式大数据的处理研究涉及到数据处理技术的前沿,包括大数据聚类算法、云计算环境的应用以及分布式系统的设计。这些技术的应用不仅提升了水利系统的智能化水平,也对整个IT行业的发展产生了...

    水利自动化实时流式大数据的处理研究.pdf

    【标题】:“水利自动化实时流式大数据的处理研究” 【描述】:该研究探讨了在当前社会科技进步背景下,水利自动化领域如何应对实时流式大数据的挑战。随着计算机技术和信息技术的演进,大数据处理技术,尤其是...

    大数据流式计算:关键技术及系统实例

    随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性...

    电信设备-可见光通信大数据实时处理方法和系统.zip

    3. 实时处理算法:为了实现大数据的实时处理,通常采用流式计算或在线学习算法,如Apache Spark、Flink等框架,它们能够快速处理连续不断的数据流,满足低延迟需求。 4. 分布式系统架构:面对大数据量,单一设备...

    大数据商务智能BI平台技术方案及案例解析.pptx

    "大数据商务智能BI平台技术方案及案例解析" 1. 大数据商务智能BI平台技术方案:本方案旨在提供一个综合的大数据商务智能BI平台解决方案,涵盖了大数据平台架构、数据处理、数据规划、计算框架和分析引擎等多个方面...

    大数据前沿技术与应用场景.ppt

    大数据计算处理技术:大数据计算处理技术是大数据技术中的一个重要技术,包括分布式计并行算框架、流式计算框架、实时计算框架等。分布式计并行算框架是适合时效性较低场景的一种通用的计算框架。流式计算框架是非常...

    大数据流式计算关键技术及系统实例.docx

    大数据流式计算关键技术及系统实例 大数据流式计算是指对实时产生的数据进行处理和分析,并将结果以流的形式实时反馈给用户。流式计算与传统批处理方式不同,它强调数据的实时性和连续性。在大数据应用场景中,流式...

    浅谈大数据时代的软件工程技术应用.pdf

    同时,应拓宽技术应用范围,根据实际需求进行精准统计,构建强大的系统化服务平台,确保密集型数据的分析和处理能力。此外,还要关注软件服务的生命周期,提高数据传输的质量和技术条件,以提升众包软件服务的整体...

    滴滴大数据离线和实时平台架构和实践.pdf

    滴滴大数据离线和实时平台架构和实践 本文档概括了滴滴大数据离线和实实时平台架构和实践的经验总结,涵盖了大数据架构部的主要职责、技术架构、实时计算平台、数据ETL、数据采集、数据加工、数据应用、实时监控、...

    大数据流式处理-Flink书籍(英文原版)

    通过阅读《大数据流式处理-Flink书籍(英文原版)》,读者不仅可以深入了解Flink的技术细节,还能掌握如何在大数据项目中应用流式处理技术,提升数据驱动的业务能力。无论你是初学者还是经验丰富的开发人员,这本书...

    大数据与大数据技术(1).pptx

    议程 公司简介 大数据与大数据技术 大数据技术应用 大数据案例分享 问题讨论 Advanced Analytic Service All Rights Reserved 2016 2 大数据与大数据技术(1)全文共58页,当前为第2页。 公司简介 公司概况&发展历史 ...

    企业级大数据平台架构及业务方案.pptx

    大数据平台应用场景包括商业智能、数据挖掘、销售经理系统、管理员系统、客户及合作伙伴基层员工、商业分析员、数据科学家、研发工程师等。 十一、大数据平台架构优化 大数据平台架构优化是指对大数据平台架构的...

    大数据与大数据技术.pptx

    议程 公司简介 大数据与大数据技术 大数据技术应用 大数据案例分享 问题讨论 Advanced Analytic Service All Rights Reserved 2016 2 大数据与大数据技术全文共59页,当前为第2页。 公司简介 公司概况&发展历史 ...

    试论智能电网大数据流式处理方法与状态异常检测.pdf

    大数据流处理技术通过监控数据变化,能及时发现异常,采取相应措施,降低安全风险。 【状态异常检查方法】供电企业应记录异常数据,通过对比分析找出正常运行和异常状态之间的差异。这需要建立一套智能诊断机制,...

    大数据技术基础及应用1

    大数据技术基础及应用课程主要涵盖了大数据领域的核心概念和技术,旨在帮助学生理解和掌握大数据的信息基础设施、编程模型以及信息处理技术。课程内容丰富,结合理论与实践,通过Lab项目让学生深入体验和学习。 一...

    大数据流式计算:关键技术及系统实例 .docx

    流式大数据的主要特征包括实时性(Real-time)、易失性(Volatility)、突发性(Burstiness)、无序性(Irregularity)和无限性(Infinity)。实时性要求系统能够快速响应新数据,易失性意味着数据可能只存在短暂的...

    MRD-5 美的大数据平台建设历程分享.pdf

    美大的大数据平台技术平台包括自主研发大数据基础平台、M-Alert一体化监控预警平台、M-Scheduler企业任务调度平台、M-Governance数据运营管控平台、M-DataService数据应用开放平台等。该平台的技术平台旨在实现数据...

    大数据平台架构及业务方案.pptx

    大数据平台架构是指在大数据处理和分析中使用的一种架构,旨在处理大量的数据,并对其进行实时处理、批量处理和流式处理。该架构主要包括数据采集、数据处理、数据存储、数据计算、数据分析和数据展示等部分。 在...

    分析智能电网大数据流式处理方法与状态监测异常检测.pdf

    流式处理技术在此背景下显得尤为重要,它能在数据生成时即进行处理,无需等待所有数据完全收集,确保了数据的实时性和有效性。 【状态监测异常检测】在智能电网中,设备状态监测异常检测是保障电网稳定运行的关键。...

Global site tag (gtag.js) - Google Analytics