python sklearn-01：机器学习基础

vinking934296

浏览: 107699 次
性别:
来自: 广州

最近访客更多访客>>

lxx249

cqmyg

ffup521

daizj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据
数据分析
算法

python sklearn 机器学习基础

最近对python机器学习有点兴趣，学习之余顺便做下笔记，方便以后查阅。

官方文档链接：http://scikit-learn.org/stable/tutorial/

YouTube上的一个教程：https://www.youtube.com/playlist?list=PLXO45tsB95cI7ZleLM5i3XXhhe9YmVrRO

翻译的一个文章：https://muxuezi.github.io/posts/1-the-fundamentals-of-machine-learning.html

1.机器学习基础：

>>机器学习的基础是归纳，就是从已知案例数据中找出未知规律。典型案例-垃圾邮件过滤：通过8对数千份已经打上是否为垃圾标签的邮件进行观察经验，对新邮件进行过滤。

>>机器学习定义：一个程序在完成任务T后获得了经验E，其表现为效果P，如果它完成任务T的效果是P ，那么会获得经验E。例如，假设你有一些图片，每个图片里是一条狗或一只猫。程序可以通过观察图片来学习，然后它可以通过计算图片正确分类比例来评估学习效果。

>>机器学习分监督学习与非监督学习，还有半监督学习。

监督学习：从成对的已经标记好的输入和输出经验数据作为一个输入进行学习，用来预测输出结果，是从有正确答案的例子中学习。

分类：需要学会从若干变量约束条件中预测出目标变量的值，就是必须预测出新观测值的类型，种类或标签。

回归：如果期望的输出是由一个或者更多的连续的变量组成，那么就叫做回归。

非监督学习：程序不能从已经标记好的数据中学习。它需要在数据中发现一些规律。

聚类：将数据集合分成由类似的对象组成的多个类的过程。

密度估计：将寻找描述数据统计值的过程。

降维：将数据从高维空间映射到二维或三维空间中。

半监督机器学习：是一种增强学习(Reinforcement Learning),问题可以通过决策来获得反馈，但是反馈与某一个决策可能没有直接关系。

>>专用术语：

输出结果：响应值（response variable）,因变量（dependent variables），回归值（regressands），标准变量（criterion variables），测得变量（measured variables），解释变量（explained variables），结果变量（outcome variables），实验变量（experimental variables），标签（labels），和输出变量（output variables）

输入变量：解释变量（explanatory variables），预测值（predictors），解释变量（regressors），控制变量（controlled variables），操作便利（manipulated variables）和显现变量（exposure variables）

>>训练数据和测试数据：

训练集：构成监督学习经验的案例集合称为训练集（training set）。

测试集：评估程序效果的案例集合称为测试集（test set）。

验证集：用来调整超参数（hyperparameters）变量，这类变量控制模型是如何学习的

一般把50%以上的数据作为训练集，25%的数据做测试集，剩下的作为验证集。

训练集的记忆称为过度拟合（over-fitting）

>>效果评估，偏差，方差

--监督学习问题中，很多效果度量标准用来评估预测误差。

有两种基本的预测误差：模型的偏差（bias）和方差（variance）。

假设你有很多训练集都是不一样的，但是都具有代表性。一个高偏差的模型会产生类似的误差，无论它使用哪个训练集。模型偏离自己对真实关系假设的误差超过了模型在训练集训练的结果。

模型有高偏差是固定不变的，但是模型有高方差可能是灵活的，因为模型发觉了训练集里面的噪音部分。

就是说，高方差的模型是过度拟合了训练集数据，而一个模型有高偏差的时候，其实是拟合不够的表现。

--无监督学习没有误差项要评估，其效果的是评估数据结构的一些属性。

--机器学习系统应该可以这样评估：用系统在真实世界中发生错误的代价来表示效果评估方法。

2.scikit-learn 安装

方法1：下载scikit-learn安装，这个网上很多安装方法，可以自行搜索

方法2：安装Anaconda 里面已经集成了很多科学计算的库，所以很推荐，也可以不用在搭建环境上浪费太多时间。

下载链接：https://www.continuum.io/downloads

可以扩展，安装你要的库：打开 Prompt,例如：conda insatall pandas 就会自动获取安装了，哈哈，完全不用再费心。平时使用spyder,也很方便。console切换自如。

安装canopy也是一样的工具，下载链接：https://store.enthought.com/downloads/#default

3.未完，待续

分享到：

python sklearn-02：线性回归简单例子1 | hadoop实战-07.ubuntu14.04安装vsftpd服务

2016-07-27 15:08
浏览 2084
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论