基于云计算平台的并行数据挖掘
已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记
采用云计算技术,实现海量数据的存储、分析、处理、挖掘,提供高可靠性、高性能的数据挖掘分析。
从系统架构来讲,基于云计算的并行数据挖掘工具平台包括三个层次,依下而上为
(1)分布式计算平台层:包括三部分功能:
l 分布式文件系统:提供分布式数据文件存储功能,提供具备高可靠性、高稳定性的存储平台;
l 并行编程环境:提供基于Mapreduce的编程模型,及任务调度、任务执行、结果反馈等功能;及向平台提交作业功能;
l 分布式系统管理:实现对平台的分布式系统管理。
(2)数据挖掘平台层:包括五部分功能:
l 工作流模块:实现对各个数据挖掘步骤及模块总控、调度功能;
l 数据加载模块:将源数据从其他外设中导入云计算平台的DFS系统;
l 并行ETL模块:对原始数据进行预处理以得到挖掘数据;并行数据挖掘工具向云计算平台提交待执行的ETL任务,由云计算平台执行并反馈结果,存放于DFS;
l 并行数据挖掘算法模块:实现满足业务需要的数据挖掘算法;并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务,由云计算平台执行并反馈结果,存放于DFS;
l 并行结果展示模块:将并行数据挖掘算法的结果展示给用户;
(3)业务应用层:实现电信类的业务应用,以供市场部门制定营销策略,具体业务应用如:客户分群,用户职业预测等。用户可以通过两种方式使用并行数据挖掘工具:
l 基于用户GUI界面:用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示,来实现所需的应用。
l 基于算法库API:用户可以编写应用系统,调用算法库中的API来实现应用功能。
以上转自:http://labs.chinamobile.com/mblog/226_15240
注:具体底层实现可考虑使用 Hadoop(HDFS)或 Greenplum(PostgreSQL)
1. Hadoop (http://hadoop.apache.org/)
Hadoop是项目的总称,主要是由
HDFS、MapReduce和Hbase组成。
- HDFS是Google File System(GFS)的开源实现。
- MapReduce是Google MapReduce的开源实现。
- HBase是Google BigTable的开源实现。
2. Greenplum (http://www.greenplum.com)
下一代强大的数据仓库,数据引擎,分析数据库。
Greenplum数据引擎是为了支持新一代数据仓库和分析处理大规模数据而建立的软件解决方案。Greenplum
支持SQL和MapReduce的并行处理功能,并能以较低的成本向管理TB量到PB量级数据的企业提供业界领先的性能。
Greenplum数据引擎的优势在于:
a. 建立超大级的数据量
依照需求,快速简便的建立任意大小和种类的数据仓库
使用业界的标准硬件,扩充符合成本效益
b. 海量并行的查询能力
相比于传统查询,可以以10倍到100倍的超快速度得到答案
随着您的数据增长确保高性能的分析效率
c. 不定格式的数据处理
一个平台可以支持数据查询,机器学习,文本挖掘,统计计算等
使用业界标准的语言(SQL,MapReduce),在各个数据层级进行并行分析
"看上去都很美,问题就是海量数据每天怎么导入到 Greenplum 中来? 借助传统的 ETL 工具(Informatica / DataStage ...) 或者自己写 ETL 功能脚本来做。这就是个麻烦事。海量数据的载入与导出,对于 Greenplum 来说,似乎只能用传统的老办法。如果 Greenplum 带一个 ETL 工具就真的强了。" (摘自
DBAnotes)
注:Greenplum有自己的ETL工具?gpfdist,基于并行的快速加载,load速度非常快,并且可以线性扩展进一步提升速度。兼容其他ETL工具,在不同的情况下,使用者可以使用传统的工具。Reference:
Definition of Cloud Computing: http://csrc.nist.gov/groups/SNS/cloud-computing/
分享到:
相关推荐
Hadoop平台的数据挖掘分析是在Hadoop平台下的系统数据存储和处理功能的基础上,通过深入分析基于云计算平台的数据挖掘设计,旨在为后续云计算平台的相关研究奠定理论基础,提供参考依据。Hadoop平台下的数据挖掘分析...
参考文献中提到的相关研究,例如中兴通讯技术上发表的基于云计算的数据挖掘平台架构及其关键技术研究,以及在计算机信息管理学术研讨会上提出的搭建基于云计算的开源海量数据挖掘平台等,都是该领域研究和应用发展的...
因此,"基于云计算平台的并行数据挖掘方法及系统"应运而生,旨在通过云计算的强大计算能力,实现对大量数据的快速、高效挖掘,从而揭示出隐藏在数据中的模式和规律。 云计算平台是这个系统的基础,它提供了分布式...
基于云计算的大数据挖掘构架通常采用云计算-客户端模式,涵盖支撑平台层、功能层和服务层。支撑平台层包括物理服务器、存储设备和网络设施,负责数据的存储和计算资源的管理。功能层则包括数据分析、挖掘算法、数据...
例如,何清等人开发的基于云计算的并行分布式大数据挖掘平台PDMiner,就实现了数据预处理、关联规则分析、分类、聚类等多种并行数据挖掘算法。中国移动研究院研发的并行数据挖掘工具Hadoop,也支持处理海量数据,...
基于云计算的大数据挖掘解决方案的研究,不仅可以改善数据处理和分析的效率,还能促进数据的可视化展示,从而为社会和经济发展提供更加强大的数据支撑。尽管大数据挖掘技术还有待进一步发展,但它已经显示出了巨大的...
例如,PDMiner是一个基于云计算的并行分布式大数据挖掘平台,它能够实现数据预处理、关联规则分析以及分类、聚类等并行数据挖掘算法,并具有很好的加速比性能。 Hadoop是另一个著名的云计算平台,它提供了一个...
基于云计算的海量数据挖掘分类算法研究 基于云计算的海量数据挖掘分类算法研究是当前数据挖掘领域的热点研究方向。本研究旨在探讨基于云计算的海量数据挖掘分类算法的设计和应用,旨在解决海量数据处理和挖掘中的...
利用MapReduce模型进行数据挖掘可以有效地利用云计算平台的并行计算能力,从而加速数据挖掘过程。 在基于云计算的海量数据挖掘模型中,数据预处理是不可或缺的一步。预处理通常包括数据清洗、数据转换、数据规约等...
文章中提到,传统的分布式并行数据挖掘平台由于结构复杂、适应能力差、成本高昂,往往只能针对特定应用场景开发,不易普及。而基于云计算的大数据挖掘平台则在一定程度上解决了这些难题。平台能够处理大规模的异构...
它能够极大地提升大数据挖掘的适用性,通过MapReduce计算模型,在云计算平台上并行化执行关联、聚类、分类以及回归等常用的数据挖掘算法。这一技术的发展依赖于对并行化数据挖掘算法的不断优化和深化研究。 数据...
本文通过对云计算技术和大数据挖掘的概念介绍,分析了基于云计算的大数据挖掘技术的优势和挑战,并探讨了在大数据挖掘体系构建中遇到的问题及其解决措施。研究的成果有助于推动大数据挖掘技术的发展,更好地满足用户...
### 基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 #### 概述 随着互联网技术的快速发展及数据量的急剧增长,如何有效地管理和挖掘这些海量数据成为了一个亟待解决的问题。传统的数据挖掘技术在面对大规模...
本文主要探讨了数据挖掘与云计算的特点,并在此基础上提出了基于云计算的数据挖掘系统架构。同时,文章详细分析了云计算数据挖掘的特点,为读者提供了专业知识指导。 数据挖掘(Data Mining, DM)是一种从大型...
通过云计算平台的支持,数据挖掘效率得到显著提升,同时平台的稳定性和实用性也得到增强。未来,随着云计算技术的进一步发展和数据挖掘需求的不断增长,基于云计算的数据挖掘平台将在各个领域发挥更大的作用。
本文主要探讨了基于云计算技术的数据挖掘平台建设研究,内容涵盖了云计算技术在数据挖掘平台建设中的应用价值、系统架构以及关键技术等方面。 首先,云计算技术在数据挖掘平台建设中的应用价值是显而易见的。数据...
最后,云计算平台的稳定性和可靠性也是大数据挖掘成功的关键因素,需要确保云计算平台能够支持大数据挖掘的持续运作。 在研究和探讨基于云计算的大数据挖掘体系架构时,文献中提到的参考文献和专业指导显得格外重要...
本文提出了一种基于云计算的大数据挖掘平台构建方案,首先对相关概念进行了阐释,接着分析了数据挖掘云平台的关键技术,最后提出了构建模型。 云计算是一种基于互联网的计算模式,它通过动态可扩展的虚拟化方式处理...
在探讨基于云计算的数据挖掘平台架构及其关键技术研究之前,首先要明确数据挖掘和云计算的概念。数据挖掘是指从大量的数据中通过算法探索信息和模式的过程,它依托于数据处理、统计学、机器学习及数据库技术。云计算...