一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。
至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:
Association Analysis:
Apriori
Classification:
Nearest-Neighbor
Naive Bayesian
Clustering:
K-means
Canopy
Fuzzy K-means
Others:
PageRank
此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:
接下来还要实现一些算法,包括:
Neural Network
SVM
Logistic regression
Graph Mining
Cluster Evaluation
Sequence Patterns Mining
等。
这里把Mahout Goal post出来,做个对比,同时也知道我们分析:
High-performance, distributed matrix (both sparse and dense)
Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
Naive Bayes classification and Bayesian network
Backpropogation (Neural Network)
Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
Locally-Weighted Linear Regression (LWLR) and logistic regression
Support Vector Machine
Gaussian Discriminant Analysis
Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis
这其中有些我们已经实现了,不过还要继续努力。
<!---->
分享到:
相关推荐
云计算数据挖掘系统架构的设计,首先关注于构建目标系统模型,其主要目的是为各种终端用户提供高透明化的界面服务,以及提供开放式的接口支持。这种设计允许用户通过不同的方式使用系统服务,无论是直接通过终端用户...
同时,文章详细分析了云计算数据挖掘的特点,为读者提供了专业知识指导。 数据挖掘(Data Mining, DM)是一种从大型数据库中提取人们感兴趣知识的技术。知识是隐含、事先未知且潜在有用的,可以是概念、模式、规则...
参考文献中提到的相关研究,例如中兴通讯技术上发表的基于云计算的数据挖掘平台架构及其关键技术研究,以及在计算机信息管理学术研讨会上提出的搭建基于云计算的开源海量数据挖掘平台等,都是该领域研究和应用发展的...
本文将从云计算和物联网的基础概念讲起,深入探讨基于云计算的物联网数据挖掘技术。 首先,云计算是一种基于网络的计算方式,通过网络提供可配置的共享资源池,实现资源的快速分配和释放,具有按需服务、网络访问、...
在探讨基于云计算的数据挖掘平台架构及其关键技术研究之前,首先要明确数据挖掘和云计算的概念。数据挖掘是指从大量的数据中通过算法探索信息和模式的过程,它依托于数据处理、统计学、机器学习及数据库技术。云计算...
基于云计算物联网数据挖掘模式的构建.pdf
为了解决这一问题,研究者们开始着手研究基于云计算的数据挖掘聚类算法,旨在提升聚类覆盖率,实现更精准的数据挖掘聚类。 传统数据挖掘聚类算法的一个主要问题在于数据处理和聚类过程的分离,这导致了聚类效率低下...
6. 在云计算数据挖掘的领域,将会有更多跨学科的研究成果涌现,这包括统计学、数据科学、信息学等多个学科的交叉融合。 综上所述,基于云计算的数据挖掘技术不仅在理论上具有深厚的潜力,在实际应用中也展示了巨大...
基于云计算的数据挖掘技术研究,这是一个涵盖了互联网信息技术、云计算以及数据挖掘三个领域交叉融合的前沿研究课题。随着互联网技术的迅猛发展,数据量呈爆炸式增长,传统的数据存储和处理方法已经无法满足现代社会...
- 标准化和规范化:为了更好地推广和应用云计算数据挖掘,需要相关的标准化和规范化工作。 通过对以上内容的详细解读,我们可以看到,基于云计算的数据挖掘技术正逐渐成为解决海量数据处理的重要手段,它的优势显著...
基于云计算的大数据挖掘平台.pdf
本文将深入分析基于云计算的大数据挖掘体系构建过程中的关键技术和步骤,并探讨如何利用云计算解决大数据挖掘中的问题。 首先,大数据挖掘的关键技术包括数据存储、数据计算、数据安全等方面。数据存储需要具备高...
综上所述,基于云计算的数据挖掘技术在大数据时代扮演着至关重要的角色,它不仅解决了传统数据挖掘技术在处理海量数据时的难题,还为数据挖掘带来了新的应用场景和发展方向。尽管面临种种挑战,但随着技术的不断进步...
本篇论文《基于云计算服务模式的数据挖掘应用平台的构建》详细探讨了如何利用云计算服务模式构建适用于不同规模企业和个人的数据挖掘平台,以提高数据分析的效率和应用的普及性。 首先,论文指出传统数据挖掘系统...
基于云计算的大数据挖掘解决方案的研究,不仅可以改善数据处理和分析的效率,还能促进数据的可视化展示,从而为社会和经济发展提供更加强大的数据支撑。尽管大数据挖掘技术还有待进一步发展,但它已经显示出了巨大的...
基于云计算的大数据挖掘构架通常采用云计算-客户端模式,涵盖支撑平台层、功能层和服务层。支撑平台层包括物理服务器、存储设备和网络设施,负责数据的存储和计算资源的管理。功能层则包括数据分析、挖掘算法、数据...
云计算结合数据挖掘技术,构建基于云计算的数据挖掘平台,对于应对海量数据存储与处理的挑战具有重要意义。 云计算的定义和特性 云计算是一种计算模式,它的核心是通过互联网实现随时随地的资源访问和共享。其重要...
4. 基于云计算的数据挖掘云服务的实践:在实际应用中,基于云计算的数据挖掘云服务通常涉及对数据的预处理、特征提取、模式识别、知识发现等步骤。其中,数据的预处理包括数据清洗、转换、集成等,目的是改善数据...