`
wusuoya
  • 浏览: 641743 次
  • 性别: Icon_minigender_2
  • 来自: 成都
社区版块
存档分类
最新评论

云时代的企业应用数据挖掘

 
阅读更多

 

随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据 量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分 布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。

图1 企业面临着在不同数据源上进行数据挖掘的挑战
图1 企业面临着在不同数据源上进行数据挖掘的挑战

如何从海量应用挖掘出合理的数据

对于企业而言,如何将各种SaaS应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数 据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。

云时代企业数据挖掘也面临如下挑战。

  • 挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。
  • 多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。 如图1所示。
  • 异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。

适合云应用数据挖掘的模式建议

数据仓库建模阶段

为了应对SaaS应用大量异构数据,引入XML标记和交换数据。 由于XML能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样的不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。

引入MapReduce算法,提高数据抽取转换的效率。 MapReduce 算法是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。当前的实现方法是指定一个Map(映射)函数用来把一组键值对映射成 一组新的键值对,指定并发的Reduce(化简)函数用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce更适合如下场景。

  • ETL(数据提取转化加载)类的应用:从多个不同的源读取日志信息;分析以及清理日志数据;执行复杂的变换,比如“会话转换”;决定存储什么样的属性以及把信息装载到DBMS或者其他存储引擎中。
  • 复杂分析应用:这种挖掘类型的应用需要对数据进行多步骤的计算和处理,通常一个程序的输出会是另外一个程序的输入,因此很难用单个SQL语句来表示,这种应用场合下,MapReduce是很好的候选方案。
  • 半结构化数据:因为不需要对数据的存储进行格式定义,所以MapReduce比较适合处理半结构化数据,这些数据通常都是一些键值对。这些场合下,MapReduce非常适合做ETL的事情。
  • 快速实施的系统:完善和健壮的低成本开源解决方案是MapReduce最大的优点。
    图2 数据挖掘模式图
    图2 数据挖掘模式图

引入HDFS的分布式存储模式。 HDFS 系统简单,利于提高实施效率,适合海量数据挖掘。HDFS架构基于GFS体系架构(Google File System,简称GFS,是由Google 设计并实现的一个分布式文件系统,基于大量安装有Linux操作系统的普通PC构成的集群系统),但比GFS架构精简。GFS和HDFS都采用“单一主控 机+多台工作机”的模式,通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和性能。GFS允许文件被多次或者多个客户端同时打开以追加数据,以 记录为单位。而在HDFS中,文件只允许一次打开并追加数据。GFS中采用主从模式备份Master的系统元数据,当主Master失效时,可以通过分布 式选举备机接替主Master继续对外提供服务,而由于Replication及主备切换本身有一定的复杂性,HDFS Master的持久化数据只写入 到本机(可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害),出现故障时需要人工介入。GFS通过内部采用Copy-on-Write的 数据结构实现集群快照功能,而HDFS不提供快照功能。

引入Hive架构。 Hive 是建立在Hadoop上的数据仓库基础构架,是一种可以存储、查询和分析Hadoop中大规模数据的机制,提供了一系列工具用来进行数据ETL操作。 Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce开发者自定义Mapper和 Reducer来处理内建的Mapper 和Reducer无法完成的复杂分析工作。

数据挖掘阶段

引入数据分析中间件,提供数据处理、数据探索、数据建模及模型应用等一系列功能,开发多种数据挖掘算法和统计建模方法,并能够方便、快速、高效地处理海量数据,为商业智能的应用提供更方便、更灵活的工具和服务。

数据呈现阶段

BI作为云计算的一种SaaS服务提供给企业,建立行业数据库。面对林林总总的SaaS应用,BI同样可作为一种SaaS服务提供给企业。同时,数据挖掘 工具进行数据分析,可以发现重要的数据模式,这对构建知识库做出了巨大贡献——数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据“坟墓”转换成知 识“金块”。

数据挖掘模式图

我们设计的数据挖掘模式图如图2所示。

  • 企业数据层:企业数据来源于各类应用,如 SaaS应用、企业内部应用数据和专有云应用。
  • 数据仓库层:主要引入HDFS分布存储系统和Hive体系架构,通过MapReduce算法对数据梳理和提取。
  • 数据挖掘层:引入基于XML数据分析中间件,实现统计查询和数据挖掘功能。
  • 数据分析与BI应用层:将BI以SaaS服务的模式提供给企业使用。

总结

随着云时代的到来,企业面临的应用方式更加多元化,通过云的手段提供海量数据挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘应用的推广以及专业的行业知识库的构建。

分享到:
评论

相关推荐

    大数据时代下数据挖掘技术在电力中的应用分析.pdf

    在电力企业内部,应用数据挖掘技术的必要性分析表明,随着科技水平的发展,电力企业的生产与工作越来越依赖于自动化、智能化的管控系统,能够及时对数据信息进行分析管理。大数据技术的应用使得电力企业能够摆脱以往...

    基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云.pdf

    ### 基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 #### 概述 随着互联网技术的快速发展及数据量的急剧增长,如何有效地管理和挖掘这些海量数据成为了一个亟待解决的问题。传统的数据挖掘技术在面对大规模...

    云端时代杀手级应用:大数据分析

    这包括对数据进行清洗、整合、转换,然后运用数据挖掘技术进行模式识别和分类,以及应用机器学习算法进行预测建模。 数据的分析结果可以应用在多个方面,例如市场营销、风险管理、预测分析、消费者行为分析等。在...

    数据挖掘:概念与技术(韩家炜)

    总之,《数据挖掘:概念与技术》这本书为读者提供了全面的数据挖掘理论基础和实践指导,无论对初学者还是专业人士,都是深入理解和应用数据挖掘的宝贵参考资料。通过学习,我们可以掌握如何从海量数据中提取有价值的...

    数据挖掘算法在电力云数据分析平台的应用.docx

    数据挖掘算法在电力云数据分析平台的应用是一种高效的数据分析方法,能够帮助电力企业快速处理和分析大量的电力数据。随着电力系统的发展和信息化时代的到来,电力系统中产生了大量的电力数据,这些数据隐藏着许多...

    动态云模型大规模数据挖掘算法.pdf

    动态云模型在大规模数据挖掘中的应用是一个集云计算与数据挖掘技术于一体的高级话题,它涉及到对海量数据集进行高效处理的技术。本文将详细介绍云计算与数据挖掘的关系,SLIQ和SPRINT两种数据挖掘算法,并阐述在数据...

    demo_DEMO_数据挖掘_

    总结起来,"demo_DEMO_数据挖掘_"主题强调了在云时代大数据环境下,数据挖掘技术的重要性及其广泛的应用。通过学习和实践这样的DEMO,我们可以更好地掌握数据挖掘的方法,提升数据分析能力,以应对日益复杂且数据...

    关于数据挖掘语言应用现状的分析.pdf

    正确的研发和应用数据挖掘语言,不仅能提高数据挖掘系统的运行效率和工作质量,还能满足不同用户在数据挖掘任务中的个性化需求,实现与知识库信息的交互。随着未来科技的不断进步,数据挖掘语言还将继续发展和完善,...

    基于普适云的大数据挖掘.pdf

    普适云数据挖掘技术的应用,能够帮助企业和组织在大数据分析中提取有价值的信息,从而指导决策和优化流程。 理论与实践中的大数据挖掘性能分析 文章对基于普适云的大数据挖掘架构的运行模式进行了讨论,并进行了...

    智能化的数据分析与数据挖掘应用.pdf

    "智能化的数据分析与数据挖掘应用" 在当今信息化时代,数据分析与数据挖掘技术正在发挥着越来越重要的作用。随着大数据时代的到来,企业和政府机构面临着海量数据处理和分析的挑战。这也意味着,数据分析与数据挖掘...

    数据挖掘与应用统计现状及趋势研究——第八届国际数据挖掘与应用统计研究会年会学术综述.pdf

    数据挖掘与应用统计作为当前科技领域的重要研究方向,在近年来发展迅速,尤其随着大数据时代的到来,其理论研究和应用实践均面临诸多新的挑战与机遇。本文将根据提供的文件内容,对数据挖掘与应用统计的现状及未来...

    数据仓库与数据挖掘(廖开际)

    总的来说,"数据仓库与数据挖掘(廖开际)"这份资料将深入探讨这两个领域的理论基础、技术应用以及实践策略,对于希望提升数据分析能力、优化业务流程或寻求创新洞察的企业和个人而言,是一份极具价值的学习资源。...

    地理信息大数据挖掘与分析.pdf

    在地理信息大数据挖掘系统的云平台分析方面,云平台的技术支持了数据挖掘和分析能力的提升,使其成为智慧应用的关键。地理信息云平台通过云计算技术、人工智能和各种数据库技术,实现了对大量地理信息数据的存储、...

    浅谈有关大数据时代的数据挖掘.pdf

    在大数据背景下,数据挖掘的应用变得尤为重要,因为它可以帮助企业和组织从海量的数据中提取有价值的信息,用于改进决策、优化流程和增强竞争力。 大数据的特点主要表现在其规模的巨大性,通常指的是超过10TB的数据...

    数据挖掘技术与云计算.pdf

    数据挖掘技术的应用能够帮助企业从自身的业务数据中提取出关键信息,为商业决策提供支持。数据挖掘的主要任务包括分类、回归、聚类、关联规则发现、序列模式发现和异常检测等。 在数据挖掘技术中,一些主要的算法...

    大数据和数据挖掘技术应用于烟草行业中的策略分析.pdf

    随着信息时代的到来,大数据和数据挖掘技术已经成为推动各行各业发展的重要力量。在烟草行业中,这两项技术的应用同样展现出巨大的潜力和价值。本分析将围绕大数据和数据挖掘技术在烟草行业中的应用进行详细探讨。 ...

    大数据形势下数据挖掘对企业管理的影响.pdf

    企业应当高度重视数据挖掘技术的引进与应用,不断提升自身数据分析和应用的能力,以适应大数据时代的发展潮流。同时,企业也需要关注基础设施建设,提高对大数据存储和处理的能力,为数据挖掘技术的应用创造良好的...

Global site tag (gtag.js) - Google Analytics