时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。
显然,大数据是一种创新,它在任何时候都知道你在哪里。我们可以以有效方式利用这些数据,而且已经看到了市场需求。
日前,在北京举办的大数据世界论坛上,内存计算、实时查询、有效的存储管理、智能挖掘分析,成为了众多IT人士关注的焦点。
用户需求——海量+实时分析
来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
而另一个需求则来自于对海量数据的实时查询访问需求。在数据仓库诞生的第一天,一直就有一个话题,要把大查询分解成小任务,这些小任务由一台台的机器来完成。
“我们的要求在于,上亿条数据的分析能够在5秒钟内完成”,中国民族证券信息技术部总经理颜阳表示,在证券行业由于发展的波动性很大,因此证券公司的投入也是基于量入为出,采用了MPP(大规模并行处理)架构的数据库(数据仓库)。其基本特征在于是由多个SMP服务器通过节点互连,而每个节点只能访问本地资源,是一种完全无共享的结构,因此扩展性很好。当基于此数据库来开发应用时,不需要考虑服务器由多少节点组成,也不需要考虑负载问题。
显然,和NUMA架构(非一致性存储访问)相比,MPP的优势在于更适合复杂的数据总和分析与处理。当然它也需要借助支持MPP的数据库系统来屏蔽节点之间的负载均衡与调度复杂性。
同时,颜阳也给出了BI和ETL工具选型建议——兼容性、操作性、功能性、展现力、维护性。他表示,在数据中心,每一个转换要保证数据的完整性和准确性,要进行安全性的管理和控制,这些都要通过开发工具加上适度的编程来实现。如果开发团队对这个工具的理解和整合程度不好的话,最后的数据仓库的数据会形成很多垃圾,甚至造成很多错误的数据出现。因此,要兼顾五个方面去开展。
大数据并不等于IT重构
本次大会传递出来的另一个信息是,对真正需要大数据的企业而言,大数据的需求并不等于IT重构。
实际上,并非所有的数据都需要进行分析,对企业而言,核心在于找出关键的数据,并运用适合MPP系统的相干数据,得到一些结构化的数据,而一些非结构化的数据,可以用Hadoop进行处理。
另一方面,大数据的基础架构需要的是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要什么样的架构去实现。必然,未来需要的是一个能够支持非常好的、可扩张性的、对文件存储友好的文件系统。
目前,不管是IBM、EMC还是SAP都推出了自己的Bigdata Total solution,从中对比我们可见一斑。
IBM——数据仓库一体机
IBM将数据仓库做成了硬件化的产品,标配Power服务器、存储,再加上刚收购的Netezza。Netezza新型数据仓库一体机渠道经理郑晓军表示,“凡是玩过云计算、Hadoop的用户,对于Netezza的环境搭建只是小菜一碟。”据了解,Netezza一体机是一个小型的、成集成度很高的多机并行处理环境。其架构基于MPP,由两个Hosts系统接受查询请求,查询语句将分散成几十个或者上百个分片,传给第二层,第二层的每一个单元是一样的(内部名称S-Blades分区内存),再把每一个分片看成MPP环境中的每一台机器,中间的网络构成MPP网络。
当数据存进去的时候,会把数据平均的分在所有的节点上,节点的均衡是由Netezza自己来决定的。数据存在硬盘的时候用的格式是“Zone Maps”,把一张表里所有的字段,根据值不同,分了所有的分片。有了Zone Maps之后,FPGA扫描的时候,只会读取那些包含记录的区域,这些地方硬盘加速效率很高的。如果数据修改的话,会在新增添的数据记录里面增添,定时会对数据重组,进行压缩,这些都是通过后台进程管理的。
EMC——自服务数据仓库
Greenplum Chorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。
EMC中国研发中心首席技术官陶波表示,Greenplum Chorus构成主要由自助式的调配、数据服务协作分析所组成。当用户同时部署Chorus、VMware、Greenplum后,可以完全实现自服务,自服务可以是一个服务器,也可以生成一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。与此同时,开发者还可以创造一个合作环境,在分享数据的同时要控制授权,避免私人数据被不适当的使用。比如写一段R代码,并把R代码进行分享,同时看到别人的评论,可以随时随地的进行自己的工作。
SAP——内存计算+开放平台
SAP在此次大会上提出了开放的内存计算平台HANA,据SAP解决方案和架构部总经理张志琦介绍,HANA将成为SAP未来的平台,未来所有的应用都会发布在HANA平台之上,并且用作实时分析。而HANA将主要用于实时处理大量交易数据的软件,包括数据建模、数据和生命周期管理、安全、运营的工具,基于行业标准为多个接口提供支持。
“内存比磁盘计算快1000000倍,传统数据库磁盘读取速度是5毫秒,内存数据库磁盘读取速度是5纳秒。用户可以利用内存高速的性能,更快速的获取数据、汇总数据、分析数据。此外,大数据时代,一台服务器不一定够,用户可以通过分而治之的方式将动态的服务器分到不同的节点上,快速的进行数据分散计算、数据分散汇总、获取更快速的结果。每台服务器还有更多的CPU,可以在总的内存计算中更给力。所有的数据都可以通过分布式的环境。”
张志琦表示,“HANA将是一个开放的平台,SAP将和业务伙伴等在HANA之上开发应用,体现更多的支持。SAP HANA平台将支持更多的内存应用程序,比如报表、运营报告、能力分析加速器,更多的获取价值。HANA不仅仅是分析应用,更多的是一个业务应用。我们希望企业可以在不需要IT人员关注的情况下就可以获得信息的获取。这本身是SAP HANA平台提供的能力。”
数据分析职业未来很吃香
随着大数据的流行,可以预见的是,数据分析师将是将来最热门的行业之一,大量的行业比如政府、能源行业、互联网行业都需要数据科学家,而这些数据科学家要不断的提出关键性、对业务有重大启示性的问题。阿里巴巴目前已经有一百多个数据分析家,他们不同的部门都在对数据进行分析,共享对于数据的分析以及和数据管理员、企业管理层形成合作性的数据分析。
Informatica企业数据集成产品管理总监郑玮表示,大数据分析师可能会有越来越大的需要,可能是IT组织的一部分,也可能是业务组织的一部分。从互联网的情况来看,提供用户的价值,可以发掘很多用户价值,比如汽车销售等等有直接的销售影响。在世界的各个地方,尤其是一些数据比较多的、比较成熟的行业中,会有大量的数据分析、数据科学家的需求。
Teradata天睿公司首席客户官周俊凌谈到,企业必须要有一些专注于数据研究的科学家,一旦有了数据科学家,企业需要对数据科学要进行相关培训,了解相关的业务。
IBM硅谷实验室大数据项目总监Steven Sitze则认为,现在一些大的企业都有数据分析师。而这些数据分析师现在并没有分析大量或者子类型的数据,这在发展工具上会有很大的机会。对企业而言,光有一个大数据的平台是不够的,要有一些发展的工具帮助他们利用来展示大数据的分析展示能力。
观察:大数据产业才刚刚上路
对数据存储厂商来说,不管是大数据还是海量数据还是有不少挑战存在,首当其冲的是,他们必须要强化关联式数据库的效能,增加数据管理和数据压缩的功能。
因为过往关联性数据库产品处理大量数据时的运算速度都不快,需要引进新技术比如Hadoop来加速数据查询的功能。另外,数据存储的厂商也开始尝试不只采用传统硬盘来存储数据,像是使用快速闪存的数据库、闪存数据库等,都逐渐产生。
另一个挑战就是传统关联性数据库无法分析非结构化数据,因此,并购具有分析非结构化数据的厂商以及数据管理厂商,是目前数据存储大厂扩展实力的方向。
同时,数据管理的影响也在于对数据安全的考量。IDC软件市场分析师吴乃沛表示,大数据对于存储技术与资源安全也都会产生冲击。首先,快照、重复数据删除等技术在大数据时代都很重要,就衍生了数据权限的管理。
举例来说,现在企业后端与前端所看到的数据模式并不一样,当企业要处理非结构化数据时,就必须制定出是IT部门还是业务单位才是数据管理者。由于这牵涉的不仅是技术问题,还有公司政策的制定,因此界定出数据管理者是企业目前最头痛的问题,而这一切,对大数据而言,不管是技术还是应用都才刚刚上路。
分享到:
相关推荐
数据可视化是信息技术领域中不可或缺的一部分,...这些趋势揭示了数据可视化如何逐渐走向大众化、智能化和更具影响力。随着技术的进步,数据可视化将继续演变,为企业、政策制定者和公众提供更直观、更深入的数据洞察。
报告中还提到了字节系(包括抖音、今日头条和穿山甲广告联盟)在游戏买量市场中的崛起,字节系已经成为游戏买量的第一大渠道,这得益于其强大的数据处理和算法优化能力,使得买量变得更加高效和精准。随着游戏行业从...
大数据分析能够处理海量的市场数据,包括交易历史、公司公告、经济指标等多种信息,从中挖掘出有价值的模式和趋势。"山量数据"系统利用这种能力,可以深入分析市场的微观结构,帮助投资者发现潜在的交易机会。 其次...
涂子沛在其著作中提到,大数据的价值不仅在于数据量的“大”,更在于它能够通过分析和整合,推动知识、科技、利润和发展的巨大变化。 自媒体平台的另一个特点是社交圈和社交关系的价值。这些平台把线下社交活动扩展...
《市场总容量趋势调查表》是一个重要的文档,尤其对于从事市场营销、数据分析以及商业决策的人员来说,它提供了深入了解行业动态和市场变化的关键信息。在这个压缩包中,包含了一个PDF文件,名为“5.市场总容量趋势...
同时,大数据处理技术与深度学习等人工智能技术相结合,产生了新的应用场景和解决方案。云计算平台也被用于部署分布式大数据架构,以实现更高效的资源利用和更好的数据共享。 2. 人工智能在大数据中的应用 人工智能...
大数据分析方法和工具的引入,将使石油物探数据业务从定性分析走向更深入的定量计算,从而更好地指导油田勘探和开发工作。这需要研究人员不断探索新的数据处理策略,以应对日益增长的数据量和复杂性,实现对地质信息...
《Python爬虫与数据可视化分析深度探索》 Python爬虫技术是现代数据分析领域的重要工具,它...通过这个大作业,你不仅能够掌握Python爬虫的实战技巧,还能了解到如何将数据科学应用于现实问题,如疫情的大数据分析。
趋势判断是数据分析的核心任务之一,它帮助我们识别数据中的模式,预测未来的走向,并做出明智的决策。在这个场景中,我们可能会使用Python的数据科学库,如Pandas、NumPy和Matplotlib,来对关键词热度进行分析并...
总结以上内容,深度点击率模型的新趋势已经从传统的特征交互走向了更加综合的数据交互模式,模型结构和学习算法也日趋复杂和高效。这反映了当前互联网环境下数据挖掘和算法模型对于处理大规模、高维度和复杂交互关系...
在联络中心的应用中,数据挖掘通常是大数据分析的起点。通过数据挖掘,企业可以理解客户的行为、偏好和需求,从而优化服务和营销策略。例如,通过对呼叫记录、交互历史、客户满意度调查等数据的挖掘,企业可以识别出...
本数据集“客户购物趋势数据集.zip”提供了一手的消费者行为资料,旨在帮助我们深入了解消费者的购买行为,预测市场走向,优化产品策略,以及制定更有效的营销策略。这个数据集包含两个CSV文件:shopping_trends.csv...
随着大数据技术的发展,大数据挖掘已经逐渐从理论研究走向实践应用,而其背后的主要推动力正是实际应用的需求。在实际应用的推动下,大数据挖掘不再是单纯的技术活动,而是转变为具有明确目标和实践价值的活动,能够...
标题中的“走向知识融合——大数据环境下情报学的发展趋势”揭示了本文的主题,即在大数据的背景下,情报学如何通过知识融合实现自身的发展和进步。这一主题涵盖了多个IT领域的关键知识点,包括大数据、知识管理、...
总的来说,大数据分析在企业管理中的应用已经从理论走向实践,成为提升企业核心竞争力的重要途径。通过深入挖掘数据价值,企业可以优化运营,创新产品,改进决策,实现可持续发展。随着大数据技术的不断进步,未来在...
一体机的优势在于其高度优化的硬件和软件集成,例如,它们可能会配备专门的存储设备、高速网络连接和定制化的数据库管理系统,以适应大数据量的查询和分析需求。这些设备通常支持复杂的SQL查询,能够快速执行多维...
供水调度大数据挖掘与应用主要围绕大数据分析挖掘技术在供水调度领域中的应用进行探讨。供水行业作为城市基础设施的重要组成部分,其调度的智能化对于提高供水效率、确保供水安全具有极其重要的作用。供水调度数据...
1. 数据信息量大:在经济社会快速发展的背景下,经济数据的积累是持续的过程,导致经济数据量变得非常庞大。处理这些数据需要强大的计算能力和复杂的数据挖掘算法。 2. 数据来源多样:数据可以来源于官方统计、个人...
随着企业数据量的激增以及对实时数据分析的需求,传统的人工监控模式已经不能满足现代化数据中心的需求。因此,引入人工智能技术,特别是边缘计算、信息物理系统、信息融合技术,就成为了数据中心监控系统的重要发展...