时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。
显然,大数据是一种创新,它在任何时候都知道你在哪里。我们可以以有效方式利用这些数据,而且已经看到了市场需求。
日前,在北京举办的大数据世界论坛上,内存计算、实时查询、有效的存储管理、智能挖掘分析,成为了众多IT人士关注的焦点。
用户需求——海量+实时分析
来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
而另一个需求则来自于对海量数据的实时查询访问需求。在数据仓库诞生的第一天,一直就有一个话题,要把大查询分解成小任务,这些小任务由一台台的机器来完成。
“我们的要求在于,上亿条数据的分析能够在5秒钟内完成”,中国民族证券信息技术部总经理颜阳表示,在证券行业由于发展的波动性很大,因此证券公司的投入也是基于量入为出,采用了MPP(大规模并行处理)架构的数据库(数据仓库)。其基本特征在于是由多个SMP服务器通过节点互连,而每个节点只能访问本地资源,是一种完全无共享的结构,因此扩展性很好。当基于此数据库来开发应用时,不需要考虑服务器由多少节点组成,也不需要考虑负载问题。
显然,和NUMA架构(非一致性存储访问)相比,MPP的优势在于更适合复杂的数据总和分析与处理。当然它也需要借助支持MPP的数据库系统来屏蔽节点之间的负载均衡与调度复杂性。
同时,颜阳也给出了BI和ETL工具选型建议——兼容性、操作性、功能性、展现力、维护性。他表示,在数据中心,每一个转换要保证数据的完整性和准确性,要进行安全性的管理和控制,这些都要通过开发工具加上适度的编程来实现。如果开发团队对这个工具的理解和整合程度不好的话,最后的数据仓库的数据会形成很多垃圾,甚至造成很多错误的数据出现。因此,要兼顾五个方面去开展。
大数据并不等于IT重构
本次大会传递出来的另一个信息是,对真正需要大数据的企业而言,大数据的需求并不等于IT重构。
实际上,并非所有的数据都需要进行分析,对企业而言,核心在于找出关键的数据,并运用适合MPP系统的相干数据,得到一些结构化的数据,而一些非结构化的数据,可以用Hadoop进行处理。
另一方面,大数据的基础架构需要的是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要什么样的架构去实现。必然,未来需要的是一个能够支持非常好的、可扩张性的、对文件存储友好的文件系统。
目前,不管是IBM、EMC还是SAP都推出了自己的Bigdata Total solution,从中对比我们可见一斑。
IBM——数据仓库一体机
IBM将数据仓库做成了硬件化的产品,标配Power服务器、存储,再加上刚收购的Netezza。Netezza新型数据仓库一体机渠道经理郑晓军表示,“凡是玩过云计算、Hadoop的用户,对于Netezza的环境搭建只是小菜一碟。”据了解,Netezza一体机是一个小型的、成集成度很高的多机并行处理环境。其架构基于MPP,由两个Hosts系统接受查询请求,查询语句将分散成几十个或者上百个分片,传给第二层,第二层的每一个单元是一样的(内部名称S-Blades分区内存),再把每一个分片看成MPP环境中的每一台机器,中间的网络构成MPP网络。
当数据存进去的时候,会把数据平均的分在所有的节点上,节点的均衡是由Netezza自己来决定的。数据存在硬盘的时候用的格式是“Zone Maps”,把一张表里所有的字段,根据值不同,分了所有的分片。有了Zone Maps之后,FPGA扫描的时候,只会读取那些包含记录的区域,这些地方硬盘加速效率很高的。如果数据修改的话,会在新增添的数据记录里面增添,定时会对数据重组,进行压缩,这些都是通过后台进程管理的。
EMC——自服务数据仓库
Greenplum Chorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。
EMC中国研发中心首席技术官陶波表示,Greenplum Chorus构成主要由自助式的调配、数据服务协作分析所组成。当用户同时部署Chorus、VMware、Greenplum后,可以完全实现自服务,自服务可以是一个服务器,也可以生成一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。与此同时,开发者还可以创造一个合作环境,在分享数据的同时要控制授权,避免私人数据被不适当的使用。比如写一段R代码,并把R代码进行分享,同时看到别人的评论,可以随时随地的进行自己的工作。
SAP——内存计算+开放平台
SAP在此次大会上提出了开放的内存计算平台HANA,据SAP解决方案和架构部总经理张志琦介绍,HANA将成为SAP未来的平台,未来所有的应用都会发布在HANA平台之上,并且用作实时分析。而HANA将主要用于实时处理大量交易数据的软件,包括数据建模、数据和生命周期管理、安全、运营的工具,基于行业标准为多个接口提供支持。
“内存比磁盘计算快1000000倍,传统数据库磁盘读取速度是5毫秒,内存数据库磁盘读取速度是5纳秒。用户可以利用内存高速的性能,更快速的获取数据、汇总数据、分析数据。此外,大数据时代,一台服务器不一定够,用户可以通过分而治之的方式将动态的服务器分到不同的节点上,快速的进行数据分散计算、数据分散汇总、获取更快速的结果。每台服务器还有更多的CPU,可以在总的内存计算中更给力。所有的数据都可以通过分布式的环境。”
张志琦表示,“HANA将是一个开放的平台,SAP将和业务伙伴等在HANA之上开发应用,体现更多的支持。SAP HANA平台将支持更多的内存应用程序,比如报表、运营报告、能力分析加速器,更多的获取价值。HANA不仅仅是分析应用,更多的是一个业务应用。我们希望企业可以在不需要IT人员关注的情况下就可以获得信息的获取。这本身是SAP HANA平台提供的能力。”
数据分析职业未来很吃香
随着大数据的流行,可以预见的是,数据分析师将是将来最热门的行业之一,大量的行业比如政府、能源行业、互联网行业都需要数据科学家,而这些数据科学家要不断的提出关键性、对业务有重大启示性的问题。阿里巴巴目前已经有一百多个数据分析家,他们不同的部门都在对数据进行分析,共享对于数据的分析以及和数据管理员、企业管理层形成合作性的数据分析。
Informatica企业数据集成产品管理总监郑玮表示,大数据分析师可能会有越来越大的需要,可能是IT组织的一部分,也可能是业务组织的一部分。从互联网的情况来看,提供用户的价值,可以发掘很多用户价值,比如汽车销售等等有直接的销售影响。在世界的各个地方,尤其是一些数据比较多的、比较成熟的行业中,会有大量的数据分析、数据科学家的需求。
Teradata天睿公司首席客户官周俊凌谈到,企业必须要有一些专注于数据研究的科学家,一旦有了数据科学家,企业需要对数据科学要进行相关培训,了解相关的业务。
IBM硅谷实验室大数据项目总监Steven Sitze则认为,现在一些大的企业都有数据分析师。而这些数据分析师现在并没有分析大量或者子类型的数据,这在发展工具上会有很大的机会。对企业而言,光有一个大数据的平台是不够的,要有一些发展的工具帮助他们利用来展示大数据的分析展示能力。
观察:大数据产业才刚刚上路
对数据存储厂商来说,不管是大数据还是海量数据还是有不少挑战存在,首当其冲的是,他们必须要强化关联式数据库的效能,增加数据管理和数据压缩的功能。
因为过往关联性数据库产品处理大量数据时的运算速度都不快,需要引进新技术比如Hadoop来加速数据查询的功能。另外,数据存储的厂商也开始尝试不只采用传统硬盘来存储数据,像是使用快速闪存的数据库、闪存数据库等,都逐渐产生。
另一个挑战就是传统关联性数据库无法分析非结构化数据,因此,并购具有分析非结构化数据的厂商以及数据管理厂商,是目前数据存储大厂扩展实力的方向。
同时,数据管理的影响也在于对数据安全的考量。IDC软件市场分析师吴乃沛表示,大数据对于存储技术与资源安全也都会产生冲击。首先,快照、重复数据删除等技术在大数据时代都很重要,就衍生了数据权限的管理。
举例来说,现在企业后端与前端所看到的数据模式并不一样,当企业要处理非结构化数据时,就必须制定出是IT部门还是业务单位才是数据管理者。由于这牵涉的不仅是技术问题,还有公司政策的制定,因此界定出数据管理者是企业目前最头痛的问题,而这一切,对大数据而言,不管是技术还是应用都才刚刚上路。
分享到:
相关推荐
这个函数的主要功能是将成交量的数据变化以图形化的方式展现出来,从而让投资者更直观地捕捉到成交量的变化趋势。通过对这些图形的解读,可以辅助投资者更好地预测和判断市场趋势的拐点。 针对投资者而言,掌握如何...
数据可视化是信息技术领域中不可或缺的一部分,...这些趋势揭示了数据可视化如何逐渐走向大众化、智能化和更具影响力。随着技术的进步,数据可视化将继续演变,为企业、政策制定者和公众提供更直观、更深入的数据洞察。
DevExpress的chartcontrol从数据文件读取数据然画画点,正常操作是:打开文件,逐个读取,逐个解析,然后逐个添加到图形控件上,经测试这个方法来加载数据文件速度非常慢,一个几十k的文件加载时间超过1分钟,不可...
趋势判断是数据分析的核心任务之一,它帮助我们识别数据中的模式,预测未来的走向,并做出明智的决策。在这个场景中,我们可能会使用Python的数据科学库,如Pandas、NumPy和Matplotlib,来对关键词热度进行分析并...
总结来说,从数据挖掘走向大数据是现代联络中心发展的必然趋势。通过深入理解和有效利用大数据,企业可以实现更高效、更智能的服务和营销,增强客户满意度,推动业务增长。同时,这需要企业不断适应新技术,投资人才...
通过分析过去一段时间内的数据,可以识别出增长、下降或者周期性的模式,这对于预测未来的市场走向至关重要。 3. 经济指标的影响:市场总容量的变化往往与宏观经济环境紧密相关。例如,GDP增长率、消费者信心指数、...
面对日益增长的慢性病患病率以及公共卫生资源分布不均的现状,中国医疗大数据应用仍需克服数据量大、数据处理效率低和区域发展不平衡等问题。此外,随着国家“3521”医疗系统建设的推进,医疗数据量大幅增长,对数据...
本数据集“客户购物趋势数据集.zip”提供了一手的消费者行为资料,旨在帮助我们深入了解消费者的购买行为,预测市场走向,优化产品策略,以及制定更有效的营销策略。这个数据集包含两个CSV文件:shopping_trends.csv...
大数据分析能够处理海量的市场数据,包括交易历史、公司公告、经济指标等多种信息,从中挖掘出有价值的模式和趋势。"山量数据"系统利用这种能力,可以深入分析市场的微观结构,帮助投资者发现潜在的交易机会。 其次...
趋势分析是一种重要的数据分析方法,主要用于揭示数据随时间变化的模式或预测未来的走向。在这个主题下,我们将探讨“趋势分析工具及使用说明”,包括其概念、重要性、常见工具以及如何进行有效的趋势分析。 首先,...
【游戏行业买量专题报告】深入探讨了游戏产业在买量策略上的变化和发展趋势,重点关注了如何定义“好”游戏以及买量市场的未来走向。报告由三位证券分析师共同撰写,他们通过对行业数据的分析,揭示了买量模式的演变...
平均数作为另一项衡量集中趋势的重要指标,是所有数据值加总后除以数据量的结果。平均数在描述数据集的整体水平时非常有用,它能有效地反映一组数据的“平均状况”。在题典的第2题和第5题中,都涉及到了平均数的应用...
一体机的优势在于其高度优化的硬件和软件集成,例如,它们可能会配备专门的存储设备、高速网络连接和定制化的数据库管理系统,以适应大数据量的查询和分析需求。这些设备通常支持复杂的SQL查询,能够快速执行多维...
投资者可以通过模拟交易、小额实盘操作或使用历史数据回溯来测试和优化自己的趋势交易策略。此外,使用自动化的交易系统能够帮助交易者更快地执行交易信号,提高交易效率。 由于没有具体的文件内容提供,以上内容是...
同时,直播电商的互动性极大地提升了消费者的购物体验,主播的现场展示和推荐能够有效地激发消费者的购买意愿,并降低他们作出购买决策的门槛。 然而,跨境直播电商的崛起也伴随着挑战和威胁。不同国家的法律法规、...
随着数据量呈指数型增长,企业必须掌握大数据技术,以适应未来的挑战和业务扩展。 大数据的重要性在于它能帮助企业整合内外部数据,挖掘潜在需求,推动业务创新。通过大数据分析,企业可以更好地理解客户行为,形成...
在风电方面,报告分析了2016-2018年的风电招标数据,认为这些数据的大幅增长将有望在2019年体现在装机量上,特别是海上风电的增长。报告推荐了行业内的龙头公司,如天顺风能和东方电缆。 特高压领域,报告提到了...
随着数据量的持续增长,如何有效地处理和分析这些数据成为关键问题。传统的批量处理和实时处理模式将与新兴的流处理模式共存,为不同场景下的大数据处理提供解决方案。 最后,报告指出关键数据资源涉及国家主权和...
大数据不仅仅是数据量的增加,更是一种全新的数据处理和分析方式,它揭示了数据的潜在价值,推动了社会的智能化进程。大数据的定义涵盖了四个核心特征,即“4V”:大量化(Volume)、多样化(Variety)、快速化...