云时代的企业应用数据挖掘

wusuoya

浏览: 650246 次
性别:
来自: 成都

最近访客更多访客>>

u012363178

cleardo123

hegev

klxqljq

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

云计算

随着云时代的到来和SaaS概念的引入，越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务，SaaS应用的数据量面临着TB级的增长速度；不同的SaaS应用体系，提供的数据结构也不完全相同，数据有文本、图形甚至小型数据库；SaaS应用数据随着云服务平台的分布性特点，有可能分布在不同的服务器上，如何对这些异构异源的数据进行数据挖掘，是云时代的企业面临的难题。

图1 企业面临着在不同数据源上进行数据挖掘的挑战

如何从海量应用挖掘出合理的数据

对于企业而言，如何将各种SaaS应用数据进行整合挖掘，提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库，是关系型数据库的模式。面对急剧增长的异构数据，传统的数据仓库和原有的并行计算技术由于挖掘效率低，已经不能解决海量数据挖掘工作，影响着数据的及时提取。

云时代企业数据挖掘也面临如下挑战。

挖掘效率：进入云计算时代后，BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘，而面对引入互联网应用后海量的异构数据（据预计到2020年，爆发式增长的数据量将突破35ZB（1ZB=10亿TB））时，目前并行挖掘算法的效率很低。

多源数据：引入云计算后，企业数据的位置有可能在提供公有云服务的平台上，也可能在企业自建的私有云上，如何面对不同的数据源进行挖掘也是一个挑战。如图1所示。

异构数据：Web数据的最大特点就是半结构化，如文档、报表、网页、声音、图像、视频等，而云计算带来了大量的基于互联网模式提供的SaaS应用，如何梳理有效数据是一个挑战。

SaaS应用的数据挖掘希望能够通过海量数据存储平台，引入快速并行的挖掘算法，提高数据挖掘的质量。

适合云应用数据挖掘的模式建议

数据仓库建模阶段

为了应对SaaS应用大量异构数据，引入XML标记和交换数据。由于XML能够使不同来源的结构化数据很容易地结合在一起，因而使搜索多样的不兼容的数据库成为可能，从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据，从而能描述搜集的Web页中的数据记录。

引入MapReduce算法，提高数据抽取转换的效率。 MapReduce 算法是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。当前的实现方法是指定一个Map（映射）函数用来把一组键值对映射成一组新的键值对，指定并发的Reduce（化简）函数用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce更适合如下场景。

ETL（数据提取转化加载）类的应用：从多个不同的源读取日志信息；分析以及清理日志数据；执行复杂的变换，比如“会话转换”；决定存储什么样的属性以及把信息装载到DBMS或者其他存储引擎中。

复杂分析应用：这种挖掘类型的应用需要对数据进行多步骤的计算和处理，通常一个程序的输出会是另外一个程序的输入，因此很难用单个SQL语句来表示，这种应用场合下，MapReduce是很好的候选方案。

半结构化数据：因为不需要对数据的存储进行格式定义，所以MapReduce比较适合处理半结构化数据，这些数据通常都是一些键值对。这些场合下，MapReduce非常适合做ETL的事情。

快速实施的系统：完善和健壮的低成本开源解决方案是MapReduce最大的优点。

图2 数据挖掘模式图

引入HDFS的分布式存储模式。 HDFS 系统简单，利于提高实施效率，适合海量数据挖掘。HDFS架构基于GFS体系架构（Google File System，简称GFS，是由Google 设计并实现的一个分布式文件系统，基于大量安装有Linux操作系统的普通PC构成的集群系统），但比GFS架构精简。GFS和HDFS都采用“单一主控机+多台工作机”的模式，通过数据分块和复制（多副本，一般是3）来提供更高的可靠性和性能。GFS允许文件被多次或者多个客户端同时打开以追加数据，以记录为单位。而在HDFS中，文件只允许一次打开并追加数据。GFS中采用主从模式备份Master的系统元数据，当主Master失效时，可以通过分布式选举备机接替主Master继续对外提供服务，而由于Replication及主备切换本身有一定的复杂性，HDFS Master的持久化数据只写入到本机（可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害），出现故障时需要人工介入。GFS通过内部采用Copy-on-Write的数据结构实现集群快照功能，而HDFS不提供快照功能。

引入Hive架构。 Hive 是建立在Hadoop上的数据仓库基础构架，是一种可以存储、查询和分析Hadoop中大规模数据的机制，提供了一系列工具用来进行数据ETL操作。 Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce开发者自定义Mapper和 Reducer来处理内建的Mapper 和Reducer无法完成的复杂分析工作。

数据挖掘阶段

引入数据分析中间件，提供数据处理、数据探索、数据建模及模型应用等一系列功能，开发多种数据挖掘算法和统计建模方法，并能够方便、快速、高效地处理海量数据，为商业智能的应用提供更方便、更灵活的工具和服务。

数据呈现阶段

BI作为云计算的一种SaaS服务提供给企业，建立行业数据库。面对林林总总的SaaS应用，BI同样可作为一种SaaS服务提供给企业。同时，数据挖掘工具进行数据分析，可以发现重要的数据模式，这对构建知识库做出了巨大贡献——数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据“坟墓”转换成知识“金块”。

数据挖掘模式图

我们设计的数据挖掘模式图如图2所示。

企业数据层：企业数据来源于各类应用，如 SaaS应用、企业内部应用数据和专有云应用。

数据仓库层：主要引入HDFS分布存储系统和Hive体系架构，通过MapReduce算法对数据梳理和提取。

数据挖掘层：引入基于XML数据分析中间件，实现统计查询和数据挖掘功能。

数据分析与BI应用层：将BI以SaaS服务的模式提供给企业使用。

总结

随着云时代的到来，企业面临的应用方式更加多元化，通过云的手段提供海量数据挖掘的方法，提高了挖掘的效率，增加了挖掘的精度，更利于挖掘应用的推广以及专业的行业知识库的构建。

分享到：

数据库事务和范式 | 数据挖掘：用户推荐系统技术深度揭秘

2012-06-20 11:53
浏览 1235
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于MATLAB GUI的学生成绩管理系统：功能实现与应用: 内容概要：本文介绍了一款基于MATLAB GUI的学生成绩管理系统，旨在提升学校教学管理的效率和准确性。系统主要由三个模块组成：考试收录数据模块、考试数据分析模块和统计分析数据模块。它不仅支持成绩的录入、显示、排序、查找，还包括特征值分析、直方图绘制和教师评语录入等功能。通过对成绩数据的综合分析，系统能为学校教学管理提供客观科学的数据支持。适合人群：教育工作者（如教师、管理人员）和技术爱好者（特别是对MATLAB GUI感兴趣的开发者）。使用场景及目标：适用于各类学校和教育机构，用于管理和分析学生成绩，帮助教师和管理者更好地了解学生的学习状况，改进教学质量。阅读建议：对于希望深入了解如何利用MATLAB GUI进行学生成绩管理的读者来说，本文提供了详细的系统设计思路和功能实现方法，值得仔细研读并尝试实践。

基于T-Mats库的涡扇发动机气路故障仿真模型：自定义故障植入与真实运行扰动分析: 内容概要：本文介绍了基于T-Mats库的涡扇发动机气路故障仿真模型，涵盖了多种类型的故障植入（如部件流量、效率及压比故障），并允许自定义故障程序和组合。该模型通过对软阈值去噪处理后的信号序列进行分析，提取真实的运行扰动信息，确保输出数据符合CMAPASS的排列要求。此外，该模型能够模拟航空发动机的典型气路故障，帮助研发和技术人员更准确地预测和评估发动机性能，从而提前采取预防措施。适合人群：航空航天领域的研发人员、技术人员以及对航空发动机故障仿真感兴趣的学者。使用场景及目标：①用于研究和开发涡扇发动机的气路故障诊断系统；②辅助工程师进行故障预测和性能评估；③为后续数据分析和实验验证提供可靠的数据基础。其他说明：该模型不仅提高了仿真的准确性，还增强了对发动机运行状态的理解，为提升发动机性能和可靠性提供了强有力的技术支持。

scratch少儿编程逻辑思维游戏源码-scratch冒险.zip: scratch少儿编程逻辑思维游戏源码-scratch冒险.zip

少儿编程scratch项目源代码文件案例素材-爬塔.zip: 少儿编程scratch项目源代码文件案例素材-爬塔.zip

合金凝固模型中的相场模拟与各向异性枝晶生长研究及其在激光增材制造中的应用: 内容概要：本文详细探讨了合金凝固模型中的相场模拟方法及其在各向异性枝晶生长研究中的应用。首先介绍了合金凝固模型的基本概念及其在现代制造业中的重要性，特别是在激光增材制造、选择性激光熔融和定向凝固技术中的应用。接着，重点讨论了相场模拟作为一种数值模拟方法，在预测合金凝固过程中组织结构演变方面的关键作用。文中还提供了MATLAB实现合金各向异性枝晶生长的具体代码及详细注释，以及Comsol用于偏微分方程求解的雪花生长模型。最后，文章总结了当前的研究进展，并展望了未来的发展趋势。适合人群：从事材料科学、冶金工程、激光增材制造领域的研究人员和技术人员，尤其是对相场模拟和合金凝固感兴趣的学者。使用场景及目标：适用于希望深入了解合金凝固过程、相场模拟方法及其在现代制造技术中应用的专业人士。目标是提高对合金凝固机制的理解，优化制造工艺，提升产品质量。其他说明：文章不仅提供了理论分析，还包括具体的代码实现和详细的文献参考资料，有助于读者全面掌握相关技术和最新研究进展。

少儿编程scratch项目源代码文件案例素材-史莱姆出击.zip: 少儿编程scratch项目源代码文件案例素材-史莱姆出击.zip

少儿编程scratch项目源代码文件案例素材-忍者酷跑.zip: 少儿编程scratch项目源代码文件案例素材-忍者酷跑.zip

scratch少儿编程逻辑思维游戏源码-点击灌篮.zip: scratch少儿编程逻辑思维游戏源码-点击灌篮.zip

基于RBF神经网络的PID控制器在PMSM转速环中的Simulink模型设计与性能分析: 内容概要：本文介绍了将基于RBF神经网络的PID控制器应用于永磁同步电机(PMSM)转速环控制的方法及其性能优势。传统的PID控制器在面对非线性和时变系统时存在参数整定困难的问题，而引入RBF神经网络可以实现实时在线调参，提高系统的灵活性和鲁棒性。文中详细描述了Simulink模型的设计，特别是Matlab s-function模块中RBF神经网络的具体实现，包括高斯函数激活和带惯性的权值更新机制。实验结果显示，在转速突变情况下，改进后的控制器能够迅速稳定系统，超调量控制在2%以内，调节时间较传统方法缩短约40%，并且在负载变化时表现出色，无需重新整定参数。适合人群：从事电机控制系统研究和开发的技术人员，尤其是对PID控制器优化感兴趣的工程师。使用场景及目标：适用于需要提升PMSM转速环控制精度和响应速度的应用场合，如工业自动化设备、机器人等领域。目标是通过引入智能算法解决传统PID控制器参数整定难题，提高系统性能。阅读建议：关注RBF神经网络与PID控制器结合的具体实现细节，特别是在Matlab s-function模块中的编码技巧以及参数调整策略。同时，注意学习率的选择和动量项的作用，这对于实际应用至关重要。

scratch少儿编程逻辑思维游戏源码-Scratch 奔跑.zip: scratch少儿编程逻辑思维游戏源码-Scratch 奔跑.zip

基于COMSOL有限元仿真的变压器辐射传热数值分析：从入门到进阶: 内容概要：本文详细介绍了基于COMSOL有限元软件的变压器辐射传热数值分析方法。首先，解释了变压器内外辐射传热的基本机理，包括热量通过传导、对流和辐射的方式传递，重点在于辐射传热的作用及其数学描述。接着，逐步引导读者从零开始构建有限元仿真模型，涵盖模型参数确定、网格划分、材料属性定义、边界条件设置、传热方程设定、仿真运行及结果分析等多个步骤。最后，探讨了进一步研究的方向，如不同因素（温度、材料属性、几何形状）对辐射传热的影响，以及该模型在电力电子设备和热管理系统的潜在应用。适合人群：电气工程专业学生、初学者和技术爱好者，尤其是对有限元仿真和变压器辐射传热感兴趣的群体。使用场景及目标：适用于希望通过实际操作掌握有限元仿真技能的人群，旨在帮助他们理解变压器辐射传热机制并能独立完成相关仿真项目。其他说明：本文不仅提供了理论知识，还附带了详细的视频教程和仿真模型，使学习过程更加直观易懂。

交错并联Boost PFC仿真电路模型：基于双闭环控制的BCM模式优化与应用: 内容概要：本文详细介绍了交错并联Boost PFC（功率因数校正）仿真电路模型的设计与实现，特别是在临界BCM模式下的双闭环控制特性。文章首先解释了该电路的经典结构及其优势，即能够有效降低开关损耗和电流纹波。接着，重点讨论了双闭环控制的具体实现方法，包括外环电压控制和内环电流控制的MATLAB/Simulink代码示例。文中还特别强调了电流环中零交叉检测的重要性以及交错并联结构中驱动信号相位差的精确设置。此外，作者分享了将模型从Simulink转换到Plecs和Psim时遇到的问题及解决方案，如更换为带反向恢复特性的二极管模型和重新校准控制环路的采样周期。最后，文章展示了优化后的电流波形图，验证了所提方法的有效性。适合人群：电力电子工程师、电源设计师、从事电力系统仿真的研究人员和技术爱好者。使用场景及目标：适用于需要进行高效电源设计的研究和开发项目，旨在提高电源系统的性能，减少谐波失真，提升功率因数校正效果。其他说明：文中提供的具体代码片段和参数设置有助于读者更好地理解和复现实验结果。同时，对于希望深入理解双闭环控制系统和BCM模式的人来说，本文提供了宝贵的实践经验。

scratch少儿编程逻辑思维游戏源码-3000 横版闯过.zip: scratch少儿编程逻辑思维游戏源码-3000 横版闯过.zip

空气涡轮发动机Matlab/Simulink动态仿真模型：部件级建模与PID控制应用: 内容概要：本文介绍了如何利用Matlab/Simulink构建空气涡轮发动机的动态仿真模型。首先，文章详细阐述了各个部件级模型的设计，包括进气道、涡轮、气室、压气机、尾喷管、转子动力学模块和容积模块。接着，重点讨论了PID控制器在维持发动机转速恒定方面的作用，尤其是在面对输出扭矩阶跃扰动时的表现。最后，提供了简单的Simulink模型代码片段，展示了如何设置和运行仿真模型，以便实时监控和调整发动机性能。适合人群：航空航天工程领域的研究人员和技术人员，尤其是那些对空气涡轮发动机仿真感兴趣的读者。使用场景及目标：适用于希望通过Matlab/Simulink进行空气涡轮发动机仿真研究的专业人士。主要目标是掌握空气涡轮发动机各部件的工作原理及其相互关系，同时学会使用PID控制器优化发动机性能。其他说明：本文不仅提供了理论知识，还附有实际操作步骤和代码示例，帮助读者更好地理解和应用所学内容。

少儿编程scratch项目源代码文件案例素材-收集能量.zip: 少儿编程scratch项目源代码文件案例素材-收集能量.zip

scratch少儿编程逻辑思维游戏源码-弹回的球.zip: scratch少儿编程逻辑思维游戏源码-弹回的球.zip

少儿编程scratch项目源代码文件案例素材-铅笔画.zip: 少儿编程scratch项目源代码文件案例素材-铅笔画.zip

Sage Decrypter.zip: Sage Decrypter.zip

scratch少儿编程逻辑思维游戏源码-躲避火箭.zip: scratch少儿编程逻辑思维游戏源码-躲避火箭.zip

KEPServerEX6-6.17.269.0: KEPServerEX6-6.17.269.0，最新版

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论