机器学习知识梳理一 -

eric_weitm

浏览: 246940 次
性别:
来自: 北京

最近访客更多访客>>

cooperay

asyuanbo

雨落千木

adapterofcoms

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

机器学习知识梳理一

博客分类：

机器学习
总结整理

算法机器学习概览

一、统计学概要

1、研究X与Y之间的关系，最理想的是找到一个映射，使得Y=f(X),但是实际当中很难找到，也就是搞不清楚X与Y之间到底是什么定量的关系，宏观上表现出来的就是结果的不确定性。尽管，每一次输入X时，得到什么Y是不确定的，但是当重复次数足够多时，出现某个结果的可能性可以计算出来的，研究这种微观的不确定，但是宏观上是确定的学科就是统计学。

2、大数定律：实验次数足够多时可以用频率代替概率

3、中心极限定理多个相互独立的随机因素来共同影响一个结果时，结果一般遵守正态分布；正态分布是二项分布的极限情况；

设从均值为μ、方差为σ^2;（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

4、样本（整体是一个随机变量，会得到样本概率）：观察n次，每次观察的结果都是一个随机变量，这n个随机变量独立、同分布，这n个随机变量合在一起叫做样本X=(X1, X2, X3...) 样本整体的分布是每个分布的乘积

5、最大似然估计：点估计的一种，其基本想法是能取到的样本值肯定是概率大的，所以能使整个的概率最大的参数xita，就是参数的估计值。也就是样本固定，让theta变化，取出哪个theata让整个似然函数取到极值，就认为是那个参数。这个值与样本值有关系。求解时可以先取对数，再求导数=0

6、回归分析：分析变量之间的关系。确定性：函数关系不确定性：变量是随机变量，用均值作为参考点

通过点图大概估计形式，之后因为样本值符合正态分布，进而整体的联合分布是确定的，进而极大似然函数确定，进而可以求出参数

7、估计的评价（使用哪个估计量为结果比较靠谱？）：无偏、有效、相合性

二、基本概念

1、人工智能：让机器像人一样聪明。人工智能发展历史：机器能够推理（符号化和逻辑）、机器需要知识来支撑推理（专家系统）、自动化的获得知识（机器学习）。

2、机器学习：人工智能的一个分支，主要是让机器学会总结经验（没有办法去创造或“顿悟”，仅仅是归纳）。其输入是训练数据，输出是X、Y的联合分布或者是X、Y之间的映射关系。机器能处理问题不是因为程序员书写了程序，而是因为机器自己可以学习知识，即程序里的算法是机器自己学习到的。

机器学习的发展历史：类似于决策树的符号系统（模拟人类对概念的判断）、类似于神经网络的连接系统（最主要的问题是调整参数，整个思考的过程是黑箱）、统计学习（支持向量机核方法）、深度学习（自动找到和描述特征）

深度学习的缺点：缺乏理论，需要调参的技巧，需要极大的数据和计算能力，但是容易入门和学习

3、解决的问题：

1》分类问题（结果是有限的可能）如是否垃圾邮件、股票是否涨、图片里是狗、猫、还是人？

常用算法：逻辑回归(工业界最常用)，支持向量机，随机森林，朴素贝叶斯(NLP中常用)，深度神经网络(视频、图片、语音等多媒体数据中使用)。

2》回归问题（结果有无限个可能）如北京2个月后的房价

常用算法：线性回归，普通最小二乘回归（Ordinary Least Squares Regression），逐步回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression Splines）

3》聚类问题（找到相似的数据）如用户群体划分也叫无监督学习

常用算法：K均值（K-means），基于密度聚类，LDA

4、三要素

模型(model)：输入、输出的联合分布律或对应的函数族（带有需要确定的参数）

策略(strategy)：模型评价的准则

算法(algorithm)：根据策略，确定模型的算法

损失函数：预测值与真实值之间的差异

风险函数：损失函数的期望，当样本足够多时，可以用经验风险来替代（极大似然估计）

经验风险：对训练集误差的期望

常见的策略：经验风险最小化（极大似然估计）、

结构风险：（structural risk minimization SRM）添加一个惩罚项 J(f)

5、泛化能力：预测新数据时的准确程度

过拟合：预测的参数比真实的还多（太多的细节反而不是总体的规律），也就是归纳的层次太低（过拟合一定有，关键是怎么减少）

处理方法：在经验风险之外添加一个惩罚项

分享到：

机器学习知识梳理二 | 几个概念

2017-01-05 15:38
浏览 657
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

机器学习知识梳理一

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

机器学习知识梳理一

评论

发表评论

相关推荐

camunda 源代码解析（一）

spring cloud gateway 分析一 主流程和层次

B端产品学习笔记

大数据、数据仓库和ETL

单机与分布式的组件差异

大数据数据仓库 《大数据之路：阿里巴巴大数据实践》 读书笔记

ElasticSearch 三 建立索引快的原因

ElasticSearch 二 查询快的原因

ElasticSearch 一 基本概念

后端技术的演化

pandas 小技巧

深度学习思考和理解 一 统计学和信息论

tensorflow python api

各种神经网络结构

tensorflow 一

自然语言处理某个pipeline

基于camunda的工作流开发

自然语言处理概览

深度学习概览

数据挖掘概览

最近访客更多访客>>

spring cloud gateway 分析一主流程和层次

大数据数据仓库《大数据之路：阿里巴巴大数据实践》读书笔记

ElasticSearch 三建立索引快的原因

ElasticSearch 二查询快的原因

ElasticSearch 一基本概念

深度学习思考和理解一统计学和信息论