`
vinking934296
  • 浏览: 107181 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

python sklearn-01:机器学习基础

阅读更多

最近对python机器学习有点兴趣,学习之余顺便做下笔记,方便以后查阅。

官方文档链接:http://scikit-learn.org/stable/tutorial/

YouTube上的一个教程:https://www.youtube.com/playlist?list=PLXO45tsB95cI7ZleLM5i3XXhhe9YmVrRO

翻译的一个文章:https://muxuezi.github.io/posts/1-the-fundamentals-of-machine-learning.html

 

1.机器学习基础:

>>机器学习的基础是归纳,就是从已知案例数据中找出未知规律。典型案例-垃圾邮件过滤:通过8对数千份已经打上是否为垃圾标签的邮件进行观察经验,对新邮件进行过滤。

 

>>机器学习定义:一个程序在完成任务T后获得了经验E,其表现为效果P,如果它完成任务T的效果是P ,那么会获得经验E。例如,假设你有一些图片,每个图片里是一条狗或一只猫。程序可以通过观察图片来学习,然后它可以通过计算图片正确分类比例来评估学习效果。

 

>>机器学习分监督学习与非监督学习,还有半监督学习。

监督学习:从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习。

      分类:需要学会从若干变量约束条件中预测出目标变量的值,就是必须预测出新观测值的类型,种类或标签。

      回归:如果期望的输出是由一个或者更多的连续的变量组成,那么就叫做回归。

 

非监督学习:程序不能从已经标记好的数据中学习。它需要在数据中发现一些规律。

       聚类:将数据集合分成由类似的对象组成的多个类的过程。

       密度估计:将寻找描述数据统计值的过程。

       降维:将数据从高维空间映射到二维或三维空间中。

 

半监督机器学习:是一种增强学习(Reinforcement Learning),问题可以通过决策来获得反馈,但是反馈与某一个决策可能没有直接关系。

 

>>专用术语:

输出结果:响应值(response variable),因变量(dependent variables),回归值(regressands),标准变量(criterion variables),测得变量(measured variables),解释变量(explained variables),结果变量(outcome variables),实验变量(experimental variables),标签(labels),和输出变量(output variables)

输入变量:解释变量(explanatory variables),预测值(predictors),解释变量(regressors),控制变量(controlled variables),操作便利(manipulated variables)和显现变量(exposure variables)

 

>>训练数据和测试数据:

训练集:构成监督学习经验的案例集合称为训练集(training set)。

测试集:评估程序效果的案例集合称为测试集(test set)。

验证集:用来调整超参数(hyperparameters)变量,这类变量控制模型是如何学习的

一般把50%以上的数据作为训练集,25%的数据做测试集,剩下的作为验证集。

 

训练集的记忆称为过度拟合(over-fitting)

 

>>效果评估,偏差,方差

--监督学习问题中,很多效果度量标准用来评估预测误差。

有两种基本的预测误差:模型的偏差(bias)和方差(variance)。

假设你有很多训练集都是不一样的,但是都具有代表性。一个高偏差的模型会产生类似的误差,无论它使用哪个训练集。模型偏离自己对真实关系假设的误差超过了模型在训练集训练的结果。

模型有高偏差是固定不变的,但是模型有高方差可能是灵活的,因为模型发觉了训练集里面的噪音部分。

就是说,高方差的模型是过度拟合了训练集数据,而一个模型有高偏差的时候,其实是拟合不够的表现。

 

--无监督学习没有误差项要评估,其效果的是评估数据结构的一些属性。

 

--机器学习系统应该可以这样评估:用系统在真实世界中发生错误的代价来表示效果评估方法。

 

2.scikit-learn 安装

 

方法1:下载scikit-learn安装,这个网上很多安装方法,可以自行搜索

方法2:安装Anaconda 里面已经集成了很多科学计算的库,所以很推荐,也可以不用在搭建环境上浪费太多时间。

          下载链接:https://www.continuum.io/downloads

           可以扩展,安装你要的库:打开 Prompt,例如:conda insatall  pandas 就会自动获取安装了,哈哈,完全不用再费心。平时使用spyder,也很方便。console切换自如。

          安装canopy也是一样的工具,下载链接:https://store.enthought.com/downloads/#default

3.未完,待续

分享到:
评论

相关推荐

    Python库 | sklearn-crfsuite-0.3.6.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:sklearn-crfsuite-0.3.6.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    sklearn-pandas:熊猫与sklearn集成

    该模块在的机器学习方法和式数据框架之间了一座桥梁。 特别是,它提供了一种将DataFrame列映射到转换的方法,这些转换随后又重新组合为功能。 安装 您可以使用pip安装sklearn-pandas : # pip install sklearn-...

    Python库 | sklearn-porter-0.7.3.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:sklearn-porter-0.7.3.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    Python库 | auto-sklearn-0.14.1.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:auto-sklearn-0.14.1.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    PyPI 官网下载 | sklearn-genetic-opt-0.2.1.dev0.tar.gz

    在Python的机器学习领域,Scikit-learn(简称sklearn)是一个广泛使用的开源库,它提供了大量的机器学习算法和实用工具。然而,为了进一步优化模型参数或者解决更复杂的问题,开发者有时会寻求更高级或特定的工具。`...

    Python库 | sklearn-som-1.0.1.tar.gz

    综上所述,`sklearn-som`是一个强大的工具,它扩展了scikit-learn的功能,使得Python开发者能够在机器学习项目中利用自组织映射的优势。通过这个库,我们可以更有效地处理和理解复杂的数据集,提升模型性能,并实现...

    sklearn-matlab:使用scikit-learn语法在Matlab中进行机器学习

    总的来说,`sklearn-matlab`为Matlab用户提供了一种实用的方式,使他们能够无缝集成Python的scikit-learn库,扩展了Matlab的机器学习能力。通过这个工具,用户可以充分利用两个平台的优点,提升工作效率。

    sklearn-python机器学习算法汇总

    sklearn-python机器学习算法汇总,对常用的机器学习算法进行了实现,使用mnist数据进行实验对比,程序运行过,没有问题

    sklearn-tda:用于结合TDA和机器学习的开源库

    sklearn-tda:适用于机器学习和TDA的scikit-learn兼容python软件包 作者:MathieuCarrière。 警告:此代码已不再维护,因为它现在已作为表示形式的python模块作为Gudhi库的一部分(Mapper和Tomato除外):请参见和...

    sklearn-genetic-源码.rar

    在机器学习领域,sklearn(Scikit-learn)是一个广泛使用的Python库,它提供了丰富的算法和工具,使得数据挖掘和数据分析变得简单易行。然而,对于一些特定的需求,如优化模型参数,sklearn可能并不直接提供解决方案...

    sklearn-xarray:支持元数据的机器学习

    **sklearn-xarray:开启元数据驱动的机器学习新时代** 在传统的机器学习框架中,如scikit-learn(sklearn),数据通常被处理为二维数组或DataFrame,这在处理结构化数据时非常有效。然而,当面对具有复杂元数据的...

    【代码分享】基于python的文本分类(sklearn-决策树和随机森林实现)

    本文主要介绍如何使用python的sk-learn机器学习框架搭建一个或多个:文本分类的机器学习模型,如果有毕业设计或者课程设计需求的同学可以参考本文。本项目使用了决策树和随机森林2种机器学习方法进行实验,完整代码...

    sklearn-rvm:相关矢量机(RVM)的sklearn样式实现

    在这个实现中,`sklearn-rvm` 是一个针对Python的库,其设计风格与流行的机器学习库`scikit-learn`相兼容。 **RVM的核心原理**: 1. **贝叶斯推断**:RVM是基于贝叶斯理论构建的,它为每个模型参数提供了完整的后验...

    通用型的机器学习工具包Sklearn-pandas.zip

    Sklearn-pandas既可以视为一个通用型的机器学习工具包,也可是视为一些特定算法的实现。它在具体的机器学习任务中主要充当支持者的角色。这里所谓支持者的角色,按照其官网的解释即是说:Sklearn-pandas在Scikit-...

    PyPI 官网下载 | sklearn-pandas-2.0.4.tar.gz

    这个包是一个集成工具,旨在方便`scikit-learn`(简称`sklearn`)与`pandas`数据框架之间的交互,这两个都是Python中非常重要的库,广泛应用于数据分析和机器学习领域。 `sklearn-pandas`的主要目标是解决`scikit-...

    python-sklearn-用法.docx

    Scikit-learn,通常简称为sklearn,是Python编程语言中的一个强大机器学习库,它包含了大量的算法和工具,适用于各种机器学习任务,如分类、回归、聚类和降维等。下面将详细介绍如何利用Scikit-learn进行机器学习...

    python sklearn决策树

    Python的Scikit-Learn(简称sklearn)库是机器学习领域的一个强大工具,它提供了多种算法,包括决策树。在这个项目中,我们将专注于使用sklearn来实现决策树模型,这将帮助初学者理解如何在Python中进行数据预处理、...

    sklearn-deltatfidf:scikit-learn的DeltaTfidfVectorizer

    `sklearn-deltatfidf` 是一个基于 Python 的扩展库,它为流行的机器学习库 `scikit-learn` 提供了增强版的 `TfidfVectorizer` 类,名为 `DeltaTfidfVectorizer`。这个扩展是针对文本分析和情感分析场景设计的,特别...

    sklearn-doc-zh:[译] scikit-learn(sklearn)中文文档

    scikit-learn(sklearn)官方文档中文版介绍sklearn(scikit-learn)是基于Python语言的机器学习工具简单高效的数据挖掘和数据分析工具吸引大家在各种环境中重复使用建立在NumPy,SciPy和matplotlib上开源,可商业...

    python-flask-sklearn-docker-template:使用scikit-learn,Flask和Docker进行实时机器学习的python API的简单示例

    用于实时机器学习的python API的简单示例。 初始化时,将创建一个简单的线性回归模型并将其保存在计算机上。 在请求进行预测时,将加载简单模型并返回预测。 有关更多信息,请阅读 要求 安装了码头工人 在docker上...

Global site tag (gtag.js) - Google Analytics