在传统的交易数据库系统中,伴随着客户的交易行为发生,在业务系统中产生了相应的交易数据,并保存在关系型数据库系统,从而形成了业务的交易记录,各类业务应用系统都是围绕着关系型数据库打交道。
当今,大家都已看到的现实状况是:
随着越来越多面向移动(mobile-oriented)的应用被大量企业/机构所使用,很多交易数据以 JSON 文档形式产生,并保存在 NoSQL 数据库系统中。
很多企业/机构建立了数据中心,并以数据仓库为主要技术去进行数据分析。数据从交易系统数据库抽取出来,经过转换处理,加载到数据仓库,才能让数据得以进行分析,这个就是众所周知的 ETL 处理流程。然而,这种分析是只能适合对“指定”业务问题进行分析和回答,其表现形式是让用户去查询信息,和用预先设计和建立好的模型来回答在指定范围内的业务问题,以及产生报表。最大的限制和不便就是要“指定”,如果要回答新的业务问题,将无法满足使用这些数据和信息人员的需求。
在最近 5年里,随着 Hadoop 平台系统和 DataLake 技术普及应用,出现了很多面向 Hadoop 开源厂商。他们把大量数据,各种不同种类的数据存放在 Hadoop中,并进行 ETL 处理,将其处理结果保存在 Hadoop。利用开源技术软件和廉价硬件,“充分”地去克服传统数据仓库技术所存在的限制,以良好扩充性,有条件地让存放的数据历史可以更长,目标只有一个,就是希望能回答更多的“新问题”。
能回答那么多“新问题”的分析系统必须是要面向企业级和跨部门,需具备较高级别的安全性和信息管治能力。恰恰 Hadoop 平台系统在这两方面都较弱;其次是,缺乏良好询问与回答问题的交互方式;再加上,Hadoop 很难与市场上大部分的分析工具软件配合使用,需要较复杂的开发技能,所有这些,都很大地制约了用户能在 Hadoop 平台系统上执行分析任务的空间。
但是,如果目前IT技术还停留在传统关系型数据和 SQL 技术,是难以解决数据分析已碰到问题。例如,物联网(IoT)设备产生的大量源数据都需要用新的方法去分析这些数据,在云上产生的数据也越来越多,非结构化数据隐藏着巨大的商业价值。
为了面对这些挑战和走出困境,IBM 公司给你提供一条灵活和强大分析能力的策略,并提供解决方案。它就是基于 IBM Bluemix 平台的 DataWorks 云技术和服务,超越了批处理方式并以流数据处理技术,从众多的数据区域中把所需要的数据抽过来,附加上有“内涵”的信息内容,加工成“内部数据”来帮助用户找到所需要的答案。我们用下面的例子来说明下,它就是通过 IBM’s Bluemix 平台对天气数据进行处理和分析。
1、数据采集:IBM DataWorks 能采集各种数据,支持范围广泛,手段有:ETL 批处理或是流式数据(streaming);一个实时流式数据分析引擎,和一个基于IoT-based 数据模式(Weather Company 提供标准)的采集引擎,具有高速和采集很大数据量的能力。
2、数据存放:一旦数据被采集进来后,IBM DataWorks 提供多种存放方式。对数据库而言,包括各种 NoSQL 数据存放格式(document, key-value, graph, columnar)到关系型(SQL-based)存放格式。 也支持对象存储,例如 Swift on Bluemix, Amazon’s S3 service 云端存储。
3、执行分析:IBM DataWorks 提供分析工具为不同级别的用户对每一类型数据进行分析,例如:针对业务分析人员提供了报表和仪表盘;应用开发平台提供给程序猿;数据管道、模型和信息统计工具提供给数据科学家使用等。
4、推广应用:一旦用户开发和使用分析工具软件,还能满意地找到了所关心问题的答案,
IBM DataWorks 提供了较简单的部署和推广应用方式。IBM Bluemix 平台为开发人员在整个应用开发阶段中提供支持,包括生命周期管理、与 Web 应用服务器和 Github 功能集成等; Cognos 和 Watson Analytics 支持企业级的报表系统部署。另外,DataWorks 还提供了包括信息治理模型和部署架构。 IBM DataWorks 秉承以云为第一,用户本地中心第二的宗旨,为用户提供服务与支持,这种强大的混合云模式给用户在云端上执行分析任务提供了广阔天地。IBM DataWorks 不但让用户以自助方式去完成分析任务,还提供了数据治理能力,体现在:
1.提供不同安全级别的用户权限控制,在符合法规条件下保护敏感数据;
2. 建立数据血缘关系(Data lineage)信息,让你更清楚数据跨越千山万水,从开始处理到最终分析的处理流程;
3. 业务术语/指标定义,建立业务术语/指标与技术描述定义的映射关系,填补了Hadoop data lakes 层面上元数据治理功能的缺失。
IBM DataWorks 采用 Apache SparkS 作为底层处理引擎技术,它提供了快速、灵活和可扩展的数据处理能力,IBM 对开源技术支持和突出贡献,让整个业界都看到了 IBM 正开创了一个“新 IBM”时代。
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
相关推荐
IBM SPSS Modeler 18.0是一款强大的数据挖掘工具,专为专业人士设计,用于从海量数据中提取有价值的信息和洞察。本指南包含了该软件的所有关键功能,特别是针对空间数据分析和地图可视化的深入教程,旨在帮助用户...
综上所述,IBM云安全红皮书不仅为读者提供了关于云安全的基本概念和技术要点,还深入探讨了云模型的分类及其各自的特点,为企业在选择合适的云服务模式时提供了宝贵的参考意见。同时,该文档也展示了IBM对于构建云...
IBM SPSS(Statistical Product and Service Solutions)是一款广泛应用于社会科学、商业、医疗...通过深入学习和实践,你将能够熟练运用SPSS进行有效的数据探索、模型构建和业务洞察,为你的工作或研究带来巨大价值。
本光盘提供了本书中所有案例涉及到的数据及IBM SPSS Modeler数据流,由于IBM SPSS Modeler数据流一律使用绝对路径来读取和导出数据文件,为了可以重现数据流的运行,请把光盘中的“SPSS案例数据”文件夹直接拷贝到C...
IBM数据生成器是一款由IBM公司开发的专业工具,主要用于在数据挖掘和分析过程中生成模拟数据。这个工具的强大之处在于它能够帮助用户快速创建大规模、复杂的数据集,这些数据集可以模仿真实世界的业务场景,从而在...
IBM的数据分析解决方案能够有效应对这种趋势,帮助企业实现更深层次的数据洞察。 2. **处理多样化数据类型**:除了传统的结构化数据外,非结构化数据如文本、图像、视频等也逐渐成为重要的数据来源。IBM的数据分析...
### IBM桌面云技术详解 #### 一、IBM桌面云技术背景与挑战 随着信息技术的快速发展,企业对于IT资源的需求日益增长,但同时也面临着资源有限、成本控制的压力。在这个背景下,IBM推出了其桌面云技术——IBM ...
IBM数据交换平台建设方案是企业信息化建设中的一个重要环节,它旨在构建一个高效、安全的数据共享环境,以便于各个业务部门之间、企业与外部合作伙伴之间进行数据的交互与整合。在这个方案中,IBM作为全球领先的IT...
"IBM 数据治理统一流程" IBM 数据治理统一流程是指组织中对数据的管理和治理,以确保数据的安全、完整性和一致性。该流程涵盖了数据的整个生命周期,从数据的创建、存储、处理、传输到最终的销毁。 IBM 数据治理...
在IT行业中,数据挖掘是一项至关重要的技术,它能够从海量数据中提炼出有价值的信息,帮助企业做出更明智的决策。IBM作为全球领先的IT解决方案提供商,其数据挖掘技术深受业界推崇。以下将详细介绍标题“IBM数据挖掘...
IBM数据仓库需求建模方法及行业数据仓库模型的知识点主要涵盖了数据仓库的建设、企业级数据仓库建模、软硬件配置、行业数据仓库模型以及市场趋势和相关技术。 首先,IBM数据仓库需求建模方法强调了企业级数据仓库...
【IBM数据仓库解决方案】概述了构建高效且可扩展的数据仓库系统的策略。数据仓库的主要目标是整合来自多个异构源的数据,以支持业务分析和决策。IBM的解决方案强调了技术架构的重要性,它应具备先进性和可扩展性,以...
### IBM数据仓库介绍 #### 一、IBM DB2 Data Warehouse Edition V9.1:集成的分析平台 IBM DB2 Data Warehouse Edition(DWE)V9.1是IBM为数据仓库分析设计的一个高度集成的平台。它专为数据分析而生,集成了数据...
"IBM 数据治理统一流程" 数据治理是业务成功的关键所在,无论是在最初还是在项目实施过程中。 IBM 数据治理统一流程提供了一个系统化的方法来管理企业中的数据,确保数据的安全、可靠和一致性。该流程包括定义数据...
IBM数据中心解决方案是针对企业数据管理和存储需求提出的综合策略,旨在解决数据快速增长、分布分散以及管理复杂性等问题。这个解决方案的核心是通过存储区域网(Storage Area Network, SAN)实现存储集中,从而提升...
例如,它可能引入了机器学习和人工智能技术来提升数据洞察力,或者支持实时流处理,以应对实时分析的需求。 在“02 DWE 9.1 T3 - DWE Overview.ppt”这个文件中,我们可能会深入了解到DWE的具体组件、工作原理、...
IBM,作为全球领先的科技公司,一直在大数据领域深耕细作,提出了“智慧的分析洞察”这一战略理论,旨在帮助企业从海量数据中提取有价值的信息,驱动业务创新和决策优化。 大数据不仅仅是关于数据的量,更是关于...
IBM设计这个工具的主要目的是帮助用户在不需要实际生产数据的情况下,创建出与真实数据行为相似的虚构数据集。这对于保护隐私、减少存储需求以及提高测试效率都有显著的效果。 在使用IBM序列数据生成器时,需要注意...
IBM数据生成器是一款由IBM公司开发的专业工具,主要用于加速和简化数据挖掘过程。在数据科学领域,数据生成是一项至关重要的任务,它可以帮助我们快速构建测试用例,模拟真实世界的数据分布,以及验证分析模型的性能...
IBM+SPSS数据分析与挖掘实战案例精粹 PDF版本 本书以 IBM SPSS MODELER 为工具,提供了医疗、金融、保险、汽车、互联网等多个行业的数据分析/数据挖掘案例分析