`
Tristan_S
  • 浏览: 383574 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

数据挖掘相关算法

 
阅读更多
【分类】朴素贝叶斯算法  反垃圾邮件/垃圾账号/图书馆归类
【分类】决策树算法  审批贷款/相亲条件/根据天气判断是否打高尔夫
【预测】时序算法 预测下一阶段的销售情况 / 股票走势
【聚类】聚类算法

总结
遗传算法不属于数据挖掘领域, 而是属于无法枚举统计的场景。
数据挖掘是通过分析已有的数据行为,创建出数据模型,判断今后的数据属于哪种类型的。
云计算中hadoop只是搭建了分布式存储和技术的平台,至于分析日志内容,并作出总结/预测,还是要通过具体的算法。
传统的数据挖掘是基于产品的。例如sqlserver的analysis组件,只要会用就可以了。 而基于云计算的数据挖掘是基于文本形式的,当然可以通过将数据导入sqlserver,再用analysis建模, 但对于大数据而言效率会很低。


场景
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。

朴素贝叶斯算法
http://www.cnblogs.com/zhangchaoyang/articles/2586402.html
比较简单, 通过计算原始数据每个条件的yes or no 的概率来判断新数据概率较大的结果
P(yes|E) = P(E1|yes) *  P(E2|yes) *  P(E3|yes) *  P(E4|yes) *  P(yes)
P(no|E) = P(E1|no) *  P(E2|no) *  P(E3|no) *  P(E4|no) *  P(no)

如果条件中的温度是数值类型,需要用到 标准差 和 正态分布的概念
http://baike.baidu.com/link?url=Kz3guwt_fBdz8mamPIvBfMXZnM1JPVtRUiQzaA4cwPU49Z5Y7yNoir4t2AumFtPL

http://baike.baidu.com/link?url=A_g_sR5ERx-e1OvnZJ_9EZ5mZZCDLkZCSvvTLhAA_3OIHX6P1JyfublMkzKGROds

决策树算法(附有Java代码)
http://www.cnblogs.com/zhangchaoyang/articles/2196631.html

相当复杂, 需要通过递归的方式来画出一颗树模型,新的数据在树模型中用if else来判断即可。
树的层级构建是通过 信息熵 大小来判断的。  熵是无序性(或不确定性)的度量指标。
越能直接判断结果(信息熵越小)的放在越上面。从而构建一个高度最矮的树

公式 Entropy(P1,P2,…Pn) = -P1*(logP1/log2)-P2*(logP2/log2)....-Pn*(logPn/log2)
http://bigdata.iteye.com/blog/1692301


该公式用到了对数的概念
http://wenku.baidu.com/view/d229722acfc789eb172dc82f.html
分享到:
评论

相关推荐

    数据挖掘相关算法 里面有很多好用的算法

    在这个压缩包中,包含了一系列与数据挖掘相关的算法,特别是聚类算法和分类算法,这些都是数据挖掘的重要组成部分。 首先,"基于信息几何构建朴素贝叶斯分类器.doc" 文件可能介绍了如何使用信息几何理论来构建朴素...

    一些数据挖掘算法的代码

    常见的数据挖掘算法有决策树、随机森林、K-均值聚类、Apriori关联规则、SVM(支持向量机)等。这些算法在分类、预测和模式发现中起着关键作用。 "Scoring.pdf"可能涉及评分卡模型,这是金融领域常用的一种风险评估...

    数据挖掘原理与算法

    模式发现阶段则包括了各种数据挖掘算法的应用。而知识表达则关注于如何将挖掘出的模式以易于理解的方式呈现。 数据挖掘与其他相关技术的关系主要涉及数据挖掘与数据库知识发现、OLAP(在线分析处理)、人工智能和...

    数据挖掘算法

    以下是关于数据挖掘算法的详细阐述: 一、数据挖掘的目标与类型 数据挖掘的目标包括分类、聚类、关联规则学习、序列模式挖掘、异常检测和回归分析等。其中,分类是将数据分为预定义的类别;聚类则是无监督学习,将...

    数据挖掘与算法

    本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。第1章从不同的角度对数据挖掘进行了介绍,第2章介绍了数据仓库技术的概念并给出了数据立方体的理论基础。第3章讲述了数据...

    数据挖掘经典算法综述

    ### 数据挖掘经典算法综述 #### 一、引言 数据挖掘是一门融合了数据库技术、统计学、机器学习等多个领域的综合性学科。随着信息技术的飞速发展,数据挖掘已成为企业和研究机构的重要工具,用于从海量数据中提取有...

    数据挖掘原理与算法课程资料

    本课程资料主要涵盖了数据挖掘的基本原理和算法实现,旨在帮助学习者掌握这一领域的核心概念。 首先,统计学习是数据挖掘的基础,它涉及到概率论、假设检验、回归分析等方法。"数理统计学教程(陈希孺+倪国熙).pdf...

    袁博-数据挖掘理论与算法

    在这个由袁博教授讲解的“数据挖掘理论与算法”课程中,我们将深入探讨这一领域的核心概念和实用工具。 首先,我们从基础理论开始。数据挖掘的目标是发现模式、关联规则和趋势,这可以通过分类、聚类、回归和关联...

    常用数据挖掘算法总结及Python实现.pdf

    在本文档中,作者Xuejun Yang详细介绍了数据挖掘中的关键算法,并提供了Python实现,帮助读者深入理解并实践这些算法。 第一部分,数据挖掘与机器学习数学基础,涵盖了机器学习的统计基础和探索性数据分析(EDA)。...

    数据挖掘算法实例.PDF

    本资料集包含的数据挖掘算法实例,将帮助我们深入理解这一领域的核心概念。 第一章《数据挖掘基本知识》会介绍数据挖掘的基本概念,包括定义、目标和应用领域。它可能涵盖数据挖掘的三大任务:分类、聚类和关联规则...

    数据挖掘 Binning算法.zip_binning_rememberp91_数据挖掘 算法_数据挖掘算法_数据预处理

    数据挖掘中的binning算法,用于数据预处理

    数据挖掘遗传算法神经网络

    在"数据挖掘遗传算法神经网络10"这个压缩包中,我们可以期待至少10本书籍的内容,涵盖了数据挖掘的基础理论、遗传算法的原理与应用,以及神经网络的设计与实践。这些书籍可能分别详细介绍了数据挖掘的各种方法,如...

    数据挖掘十大算法

    数据挖掘十大算法,清华大学出版社。 有两个文件,小的没有封面,根据需要自行阅读吧。

    数据挖掘 分类算法

    数据挖掘 分类算法

    数据挖掘十大算法详解

    数据挖掘十大算法详解

    数据挖掘原理与算法(第3版)

    数据挖掘原理与算法(第3版)

    数据挖掘十大算法吴信东 英文版

    首先,我们来逐一了解这十大数据挖掘算法: 1. **ID3(Iterative Dichotomiser 3)**:ID3算法是一种决策树构建方法,由Ross Quinlan开发。它通过信息增益度量选择最佳属性进行分类,适用于离散型特征较多的数据集...

    数据挖掘算法源程序C#

    C#作为Microsoft .NET框架的主要编程语言,为实现数据挖掘算法提供了强大的支持。本资料包"数据挖掘算法源程序C#"显然是针对那些希望通过C#语言进行数据挖掘实践或者研究的开发者准备的。 首先,我们要理解数据挖掘...

Global site tag (gtag.js) - Google Analytics