计算机=计算+信息
程序=算法+数据结构
信息:文件->数据库->数据仓库->大数据
计算:冯诺依曼->算法->机器学习
技术层次结构:OS 网络 数据库 编译 安全 ==》机器视觉 分布式 数据挖掘 自然语言处理 机器学习
总体趋势:机器更像人,能听、能看、能说、能尝
BI=ETL(Extract-Transform-Load)+data mining + data present
数据挖掘可以挖出来什么?
1、特征:(大客户有什么特点?)花费5000美元以上的顾客特征是 年龄在40~50岁、有工作、有很好的信用等级。
2、区分:(顾客和非顾客有什么区别)频繁购买计算机产品的顾客80%在20~40岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者年龄太大或者太年青,没有大学学位。
3、关联分析:买电脑和买软件有什么关系?买电脑的,同时买software的有60%,所有事物中10%同时包含2者
4、分类(事先知道类别)和预测,模拟人积累经验和处理新事物的过程----机器学习
5、聚类 相关的数据归为一类,一般是分类的前提条件
6、奇异点分析(欺诈、安全入侵?):可以使用概率分布、离中心距离、主要特征差别
7、演变分析:基于时间的变化趋势
数据仓库:分析用的,统一集成历史数据的,面向主题的,非易失的数据库。
事实表里面存储的一般是数字,一般没有主键,数据量极大;数据的解释和整理由维度表来实现。事实表要记录的足够细,以至于可以满足任何维度和层次的汇总;维度表要能够满足所有部门的查看数据的角度要求。
概率与统计:个体上不确定的东西在宏观上有一定的规律,即统计确定性。
方差表示均匀程度;协方差表示2个随机变量的相关程度,越小越没有关系
大数定律:实验次数足够多时可以用频率代替概率;
中心极限定理:多个相互独立的因素来共同影响一个概率时,一般遵守正态分布
回归分析:分析变量之间的关系,自变量确定时,因变量取值具有随机性
统计学习方法的基本假设:只要测试的数据是真实的,则对于类似的过程,一定是满足相同的概率的分布的。即训练集 与测试集 是同分布的。这种方式不是直接给出变量之间的函数关系,而是拟合出分布函数。使用的是宏观的定性分析,而不是微观的定量分析。验证时,x取定,找到y的概率最大值。
统计学习方法:
感知机:找到一个平面,刚好可以将点分开,损失函数:到平面的总距离最小
K临近法:从训练集周围的k个邻居来划分测试数据的类别,是利用训练集来在空间上划分随机变量
朴素贝叶斯:通过条件概率得到概率密度函数,之后来输出后验概率值最大的y(直接生成模型)
决策树:从训练数据集得到了每个规则的if组合,测试时尽量避免过多的消耗,本质是把所有的关键情况归纳成规则。logistic regression 和最大熵模型:利用回归分析找出函数的映射
机器学习方法:
回归分析
神经网络:
处理过程分为多个层,前一层的结果作为下一层的输入(前一层的每一个输入后一层的每一个),每个神经元节点都是一个线性回归。拆分是从粗到细,合并是从细到粗。问题:计算量太大
支持向量机
无监督算法 聚类算法 K-Means算法 主要是计算数据间的距离
降维算法 PCA算法(即主成分分析算法) 去除数据特征的重复,并且加速计算
高斯判别,朴素贝叶斯,决策树等等算法。
监督学习算法:线性回归,逻辑回归,神经网络,SVM
无监督学习算法:聚类算法,降维算法
深度学习 基于深度神经网络(多个隐藏层)的分析方法:速度更快、更能获取数据的特征(适合于模式识别)
- 浏览: 242176 次
- 性别:
- 来自: 北京
最新评论
-
saiyaren:
你对hiphop的深入程度到了什么程度了?想和你进行探讨一下
facebook hiphop php vm 实现概述 -
eric_weitm:
lj3362569 写道可以再讲具体点么?还有现有的hipho ...
facebook hiphop php vm 实现概述 -
lj3362569:
可以再讲具体点么?还有现有的hiphop不支持哪些功能?
facebook hiphop php vm 实现概述
相关推荐
机械波的几个概念.pptx
电动机的几个概念.ppt
《直线运动的几个概念》是高中物理课程的重要组成部分,主要探讨了描述物体直线运动的关键概念。以下是这些概念的详细解析: 一、参考系 参考系是物理学中用于判断物体是否运动以及如何运动的基础。它是描述物体...
### 关于电源的几个核心概念解析 #### 一、引言 电源作为电子技术中的基础元件之一,在电工学中占有举足轻重的地位。本文旨在梳理电源相关的几个基本概念,包括电压源、电流源、恒压源以及恒流源,并探讨它们之间...
我对与中华民族有关的几个概念的理解.pdf
哈佛流行病学理论:这几个概念你能搞清楚吗?(三)借鉴.pdf
开关电源emc中必须掌握的几个重要概念,希望对大家有用!!!
网络上有很多关于单片学习开发的资料,但是这些资料当中或多或少都会涉及一些比较的名词和概念,电路设计初学者看不明白,学习起来也比较困难,本篇文章就对单片机开发过程中所要涉及到的几个概念进行介绍,希望能对...
网络上有很多关于单片学习开发的资料,但是这些资料当中或多或少都会涉及一些比较专业的名词和概念,电路设计初学者看不明白,学习起来也比较困难,本篇文章就对单片机开发过程中所要涉及到的几个概念进行介绍,希望...
在IT行业中,Maoci可能指的是某个特定的技术、框架或者编程理念,但由于提供的信息有限,这里我们将从更广泛的可靠性工程的角度来探讨与...阅读“关于maoci的讨论和可靠性有关的几个概念.pdf”文档将提供更深入的理解。
在使用LoadRunner进行性能测试时,理解和应用事务(Transaction)、集合点(Rendezvous)和思考时间(Pause Time)这几个概念至关重要。 首先,事务是LoadRunner中用于度量系统性能的一个非常重要的概念。在实际测试过程...
在这个主题中,我们聚焦于"澄清几个基本概念",特别是涉及到Linux操作系统的一个关键特性——文件系统的挂载。这里,我们来深入探讨一下这个话题。 首先,我们要知道什么是Linux。Linux是一种自由和开放源码的操作...
运放是一种通用电子器件,它的应用很广,比如在放大、振荡、电压比较,模拟运算、阻抗变换,有源滤波等电路中。但不管在哪种电路中应用,均是基于运放的三种...以下内容将运放方面的几个概念做了整理,希望对大家有用。
文章对建设项目投资涉及到的投资控制、工程造价、工程计价等几个概念,分别从实施阶段、实施主体、实施依据和目的等方面进行了分析与讨论,指出了它们之间的区别与联系,认为三个概念在这些方面都存在着明显的不同。...
这篇教案主要涉及的是初中科学课程中关于几个关键科学概念的讲解,特别是质量和托盘天平的使用。以下是对这些知识点的详细解释: 1. **宇宙的物质性和运动性**: - 科学观念的核心是宇宙是由物质组成的,并且物质...
对于刚入门的新手,我想这几个概念是必须得搞清楚的,平时接触的多的也就是推挽输出、开漏输出、上拉输入这三种,但一直未曾对这些做过归纳。因此,在这里做一个总结 (1)GPIO_Mode_AIN 模拟输入 (2)GPIO_Mode_...