`
yangsq
  • 浏览: 182145 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于云计算的数据挖掘

阅读更多

    一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。

 

    至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:

 

Association Analysis:

    Apriori

Classification:

    Nearest-Neighbor

    Naive Bayesian

Clustering:

    K-means

    Canopy

    Fuzzy K-means

Others:

    PageRank

 

   此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:

个人中心网络

 

接下来还要实现一些算法,包括:

    Neural Network

    SVM

    Logistic regression

    Graph Mining

    Cluster Evaluation

    Sequence Patterns Mining

等。

 

这里把Mahout Goal post出来,做个对比,同时也知道我们分析:

    High-performance, distributed matrix (both sparse and dense)
    Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
    Naive Bayes classification and Bayesian network
    Backpropogation (Neural Network)
    Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
    Locally-Weighted Linear Regression (LWLR) and logistic regression
    Support Vector Machine
    Gaussian Discriminant Analysis
    Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis

这其中有些我们已经实现了,不过还要继续努力。

<!---->

分享到:
评论
7 楼 chenwq 2012-07-28  
这个我们在做啊!CB-DDM!
6 楼 Ahu_425 2009-07-11  
您好,小弟最近在学习怎样把数据挖掘算法应用到Mapreduce框架中,感觉学起来挺费解,主要感觉似乎没有一个应用做支撑,对这方面了解较少,希望能给一个思路或方法,能方便留个交流方式吗?
  这是我的邮箱:zhihu_425@163.com
  不甚感谢!
5 楼 conservatism 2009-05-05  
我感觉Google的map-reduce及其实现平台最重要的还是容错性,编程模型简单,适合作为底层平台为客户提供弹性的服务。相比之下如果是实验室内的科学计算,运行环境相对稳定,还是MPI比较合适。两个模型的应用场景不同。
4 楼 yingfeng 2009-03-21  
我对psvm的实现比较有兴趣(不过还没阅读),google 应当最初是基于map reduce,因为要开源,而c++的可用框架尚且没有,因此才修改为基于mpi开源出来的。
从理论上说, mpi和mapreduce的思考方式是有一定差异的,因为后者完全基于数据划分来思考,而前者则基于消息,至于是基于数据划分还是任务划分,倒是没有限制。 对于 psvm来说,它对于这么大矩阵的数据是怎么划分呢?难道是基于共享?也就是说一个大矩阵存放在一个dfs上,各节点按需索取数据? 如果是这样的话,性能低下就不足为其了。那么猜测一下,google 内部会如何实现呢?Incomplete Cholesky Factorization我刚瞅了瞅,的确比较难以划分,应当说,这是个比较典型的All-pairs 问题。 而All-pairs问题,我所知道的解决方案,是用bigtable来存储大矩阵,这种方式的性能会如何,我觉得也很难说,毕竟这没有利用到文件的子块来进行有效的节点间任务调度,跟mpi的共享存储方案比较接近,只不过由于gfs对io做了一些优化而速度快一些
3 楼 yingfeng 2009-03-21  
你的redpoll还进行吗,好像有段时间没更新了
2 楼 coderplay 2009-03-21  
不知道楼主怎么测试在hadoop之下的大数据集聚类效果呢?

to yingfeng
SVM, Neural network mahout还没做,前者google有实现,虽然基于mpi,但改成mapreduce应该很容易。

google张智威教授的通过并行化Incomplete Cholesky Factorization(一种矩阵分解)的方法实现了并行的SVM,此算法不适合在MapReduce模型。而且他的算法具有通用性,但目前不是最快的SVM算法,有些算法在单机执行会比PSVM还快很多倍。SVM类型及解法种类繁多,c-svm, v-svm, ls-svm等等,既可以通过原问题来求解,又可以通过对偶问题来求解。目前最有效的解法前后数据依赖性比较大。SVM的研究在这些年非常活跃,08年末就有几个很有质量的算法提出。
1 楼 yingfeng 2009-03-19  
搭个云字不太确切, 叫 data intensive computing 比较恰当
你的工作跟mahout重的很多
SVM, Neural network mahout还没做,前者google有实现,虽然基于mpi,但改成mapreduce应该很容易
能做这么多东西,你的工作还是挺有意思的

相关推荐

    一种基于云计算数据挖掘平台架构的设计与实现.pdf

    云计算数据挖掘系统架构的设计,首先关注于构建目标系统模型,其主要目的是为各种终端用户提供高透明化的界面服务,以及提供开放式的接口支持。这种设计允许用户通过不同的方式使用系统服务,无论是直接通过终端用户...

    基于云计算的数据挖掘分析.pdf

    同时,文章详细分析了云计算数据挖掘的特点,为读者提供了专业知识指导。 数据挖掘(Data Mining, DM)是一种从大型数据库中提取人们感兴趣知识的技术。知识是隐含、事先未知且潜在有用的,可以是概念、模式、规则...

    基于云计算的海量数据挖掘研究 (1).pdf

    参考文献中提到的相关研究,例如中兴通讯技术上发表的基于云计算的数据挖掘平台架构及其关键技术研究,以及在计算机信息管理学术研讨会上提出的搭建基于云计算的开源海量数据挖掘平台等,都是该领域研究和应用发展的...

    浅析基于云计算的物联网数据挖掘技术.pdf

    本文将从云计算和物联网的基础概念讲起,深入探讨基于云计算的物联网数据挖掘技术。 首先,云计算是一种基于网络的计算方式,通过网络提供可配置的共享资源池,实现资源的快速分配和释放,具有按需服务、网络访问、...

    基于云计算的数据挖掘平台架构及其关键技术研究 (3).pdf

    在探讨基于云计算的数据挖掘平台架构及其关键技术研究之前,首先要明确数据挖掘和云计算的概念。数据挖掘是指从大量的数据中通过算法探索信息和模式的过程,它依托于数据处理、统计学、机器学习及数据库技术。云计算...

    基于云计算物联网数据挖掘模式的构建.pdf

    基于云计算物联网数据挖掘模式的构建.pdf

    基于云计算的数据挖掘聚类算法研究.pdf

    为了解决这一问题,研究者们开始着手研究基于云计算的数据挖掘聚类算法,旨在提升聚类覆盖率,实现更精准的数据挖掘聚类。 传统数据挖掘聚类算法的一个主要问题在于数据处理和聚类过程的分离,这导致了聚类效率低下...

    基于云计算的数据挖掘研究及展望.pdf

    6. 在云计算数据挖掘的领域,将会有更多跨学科的研究成果涌现,这包括统计学、数据科学、信息学等多个学科的交叉融合。 综上所述,基于云计算的数据挖掘技术不仅在理论上具有深厚的潜力,在实际应用中也展示了巨大...

    基于云计算的数据挖掘技术研究 (1).pdf

    基于云计算的数据挖掘技术研究,这是一个涵盖了互联网信息技术、云计算以及数据挖掘三个领域交叉融合的前沿研究课题。随着互联网技术的迅猛发展,数据量呈爆炸式增长,传统的数据存储和处理方法已经无法满足现代社会...

    基于云计算的数据挖掘技术分析.pdf

    - 标准化和规范化:为了更好地推广和应用云计算数据挖掘,需要相关的标准化和规范化工作。 通过对以上内容的详细解读,我们可以看到,基于云计算的数据挖掘技术正逐渐成为解决海量数据处理的重要手段,它的优势显著...

    基于云计算的大数据挖掘平台.pdf

    基于云计算的大数据挖掘平台.pdf

    基于云计算的大数据挖掘体系构建分析.pdf

    本文将深入分析基于云计算的大数据挖掘体系构建过程中的关键技术和步骤,并探讨如何利用云计算解决大数据挖掘中的问题。 首先,大数据挖掘的关键技术包括数据存储、数据计算、数据安全等方面。数据存储需要具备高...

    基于云计算的数据挖掘技术研究.pdf

    综上所述,基于云计算的数据挖掘技术在大数据时代扮演着至关重要的角色,它不仅解决了传统数据挖掘技术在处理海量数据时的难题,还为数据挖掘带来了新的应用场景和发展方向。尽管面临种种挑战,但随着技术的不断进步...

    基于云计算服务模式的数据挖掘应用平台的构建.pdf

    本篇论文《基于云计算服务模式的数据挖掘应用平台的构建》详细探讨了如何利用云计算服务模式构建适用于不同规模企业和个人的数据挖掘平台,以提高数据分析的效率和应用的普及性。 首先,论文指出传统数据挖掘系统...

    基于云计算的大数据挖掘内涵及解决方案研究.pdf

    基于云计算的大数据挖掘解决方案的研究,不仅可以改善数据处理和分析的效率,还能促进数据的可视化展示,从而为社会和经济发展提供更加强大的数据支撑。尽管大数据挖掘技术还有待进一步发展,但它已经显示出了巨大的...

    基于云计算的大数据挖掘内涵及解决方案研究 (2).pdf

    基于云计算的大数据挖掘构架通常采用云计算-客户端模式,涵盖支撑平台层、功能层和服务层。支撑平台层包括物理服务器、存储设备和网络设施,负责数据的存储和计算资源的管理。功能层则包括数据分析、挖掘算法、数据...

    基于云计算的数据挖掘平台.pdf

    云计算结合数据挖掘技术,构建基于云计算的数据挖掘平台,对于应对海量数据存储与处理的挑战具有重要意义。 云计算的定义和特性 云计算是一种计算模式,它的核心是通过互联网实现随时随地的资源访问和共享。其重要...

    基于云计算的数据挖掘云服务模式研究.pdf

    4. 基于云计算的数据挖掘云服务的实践:在实际应用中,基于云计算的数据挖掘云服务通常涉及对数据的预处理、特征提取、模式识别、知识发现等步骤。其中,数据的预处理包括数据清洗、转换、集成等,目的是改善数据...

Global site tag (gtag.js) - Google Analytics