`
san_yun
  • 浏览: 2662069 次
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

Python机器学习库

 
阅读更多

原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/

 

 Python在科学计算领域,有两个重要的扩展模块:NumpyScipy。其中Numpy是一个用python实现的科学计算包。包括:

  • 一个强大的N维数组对象Array
  • 比较成熟的(广播)函数库;
  • 用于整合C/C++Fortran代码的工具包;
  • 实用的线性代数、傅里叶变换和随机数生成函数。

     SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。其功能与软件MATLAB、Scilab和GNU Octave类似

    Numpy和Scipy常常结合着使用,Python大多数机器学习库都依赖于这两个模块,绘图和可视化依赖于matplotlib模块,matplotlib的风格与matlab类似。Python机器学习库非常多,而且大多数开源,主要有:

1.       scikit-learn

scikit-learn 是一个基于SciPyNumpy的开源机器学习模块,包括分类、回归、聚类系列算法,主要算法有SVM、逻辑回归、朴素贝叶斯、KmeansDBSCAN等,目前INRI 资助,偶尔Google也资助一点。

项目主页:

https://pypi.python.org/pypi/scikit-learn/

http://scikit-learn.org/

https://github.com/scikit-learn/scikit-learn

2.       NLTK

NLTK(Natural Language Toolkit)Python的自然语言处理模块,包括一系列的字符处理和语言统计模型。NLTK 常用于学术研究和教学,应用的领域有语言学、认知科学、人工智能、信息检索、机器学习等。 NLTK提供超过50个语料库和词典资源,文本处理库包括分类、分词、词干提取、解析、语义推理。可稳定运行在Windows, Mac OS XLinux平台上

项目主页:

http://sourceforge.net/projects/nltk/

https://pypi.python.org/pypi/nltk/

http://nltk.org/

3.       Mlpy

Mlpy是基于NumPy/SciPyPython机器学习模块,它是Cython的扩展应用。包含的机器学习算法有:

l  回归

least squaresridge regression, least angle regression, elastic net, kernel ridge regression, support vector machines (SVM), partial least squares (PLS)

l  分类

linear discriminant analysis (LDA), Basic perceptron, Elastic Net, logistic regression, (Kernel) Support Vector Machines (SVM), Diagonal Linear Discriminant Analysis (DLDA), Golub Classifier, Parzen-based, (kernel) Fisher Discriminant Classifier, k-nearest neighbor, Iterative RELIEF, Classification Tree, Maximum Likelihood Classifier

l  聚类

hierarchical clustering, Memory-saving Hierarchical Clustering, k-means

l  维度约减

(Kernel) Fisher discriminant analysis (FDA), Spectral Regression Discriminant Analysis (SRDA), (kernel) Principal component analysis (PCA)

项目主页:

http://sourceforge.net/projects/mlpy

https://mlpy.fbk.eu/

4.       Shogun 

Shogun是一个开源的大规模机器学习工具箱。目前Shogun的机器学习功能分为几个部分:feature表示,feature预处理,核函数表示,核函数标准化,距离表示,分类器表示,聚类方法,分布,性能评价方法,回归方法,结构化输出学习器。

SHOGUN 的核心由C++实现,提供 Matlab R Octave Python接口。主要应用在linux平台上。

项目主页:

http://www.shogun-toolbox.org/

5.       MDP

The Modular toolkit for Data Processing (MDP) ,用于数据处理的模块化工具包,一个Python数据处理框架。

从用户的观点,MDP是能够被整合到数据处理序列和更复杂的前馈网络结构的一批监督学习和非监督学习算法和其他数据处理单元。计算依照速度和内存需求而高效的执行。从科学开发者的观点,MDP是一个模块框架,它能够被容易地扩展。新算法的实现是容易且直观的。新实现的单元然后被自动地与程序库的其余部件进行整合。MDP在神经科学的理论研究背景下被编写,但是它已经被设计为在使用可训练数据处理算法的任何情况中都是有用的。其站在用户一边的简单性,各种不同的随时可用的算法,及应用单元的可重用性,使得它也是一个有用的教学工具。

项目主页:

http://mdp-toolkit.sourceforge.net/

https://pypi.python.org/pypi/MDP/

6.       PyBrain

PyBrain(Python-Based Reinforcement Learning, Artificial Intelligence and Neural Network)Python的一个机器学习模块,它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法。(这名字很霸气)

PyBrain正如其名,包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。因为目前的许多问题需要处理连续态和行为空间,必须使用函数逼近(如神经网络)以应对高维数据。PyBrain以神经网络为核心,所有的训练方法都以神经网络为一个实例。

项目主页:

http://www.pybrain.org/

https://github.com/pybrain/pybrain/

7.       BigML

BigML 使得机器学习为数据驱动决策和预测变得容易,BigML使用容易理解的交互式操作创建优雅的预测模型。BigML使用BigML.io,捆绑Python

项目主页:

https://bigml.com/

https://pypi.python.org/pypi/bigml

http://bigml.readthedocs.org/

8.       PyML

PyML是一个Python机器学习工具包, 为各分类和回归方法提供灵活的架构。它主要提供特征选择、模型选择、组合分类器、分类评估等功能。

项目主页:

http://cmgm.stanford.edu/~asab/pyml/tutorial/

http://pyml.sourceforge.net/

9.       Milk

MilkPython的一个机器学习工具箱,其重点是提供监督分类法与几种有效的分类分析:SVMs(基于libsvm)K-NN,随机森林经济和决策树。它还可以进行特征选择。这些分类可以在许多方面相结合,形成不同的分类系统。

对于无监督学习,它提供K-meansaffinity propagation聚类算法。

项目主页:

https://pypi.python.org/pypi/milk/

http://luispedro.org/software/milk

10.  PyMVPA

PyMVPA(Multivariate Pattern Analysis in Python)是为大数据集提供统计学习分析的Python工具包,它提供了一个灵活可扩展的框架。它提供的功能有分类、回归、特征选择、数据导入导出、可视化等

项目主页:

http://www.pymvpa.org/

https://github.com/PyMVPA/PyMVPA

11.  Pattern 

PatternPythonweb挖掘模块,它绑定了  GoogleTwitter Wikipedia API,提供网络爬虫、HTML解析功能,文本分析包括浅层规则解析、WordNet接口、句法与语义分析、TF-IDFLSA等,还提供聚类、分类和图网络可视化的功能。

项目主页:

http://www.clips.ua.ac.be/pages/pattern

https://pypi.python.org/pypi/Pattern

12.  pyrallel

Pyrallel(Parallel Data Analytics in Python)基于分布式计算模式的机器学习和半交互式的试验项目,可在小型集群上运行,适用范围:

l  focus on small to medium dataset that fits in memory on a small (10+ nodes) to medium cluster (100+ nodes).

l  focus on small to medium data (with data locality when possible).

l  focus on CPU bound tasks (e.g. training Random Forests) while trying to limit disk / network access to a minimum.

l  do not focus on HA / Fault Tolerance (yet).

l  do not try to invent new set of high level programming abstractions (yet): use a low level programming model (IPython.parallel) to finely control the cluster elements and messages transfered and help identify what are the practical underlying constraints in distributed machine learning setting.

项目主页:

https://pypi.python.org/pypi/pyrallel

http://github.com/pydata/pyrallel

13.  Monte

Monte ( machine learning in pure Python)是一个纯Python机器学习库。它可以迅速构建神经网络、条件随机场、逻辑回归等模型,使用inline-C优化,极易使用和扩展。

项目主页:

https://pypi.python.org/pypi/Monte

http://montepython.sourceforge.net

14.  Orange

Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ Python开发,它的图形库是由跨平台的Qt框架开发。

项目主页:

https://pypi.python.org/pypi/Orange/

http://orange.biolab.si/

15.  Theano

Theano 是一个 Python 库,用来定义、优化和模拟数学表达式计算,用于高效的解决多维数组的计算问题。Theano的特点:

l  紧密集成Numpy

l  高效的数据密集型GPU计算

l  高效的符号微分运算

l  高速和稳定的优化

l  动态生成c代码

l  广泛的单元测试和自我验证

2007年以来,Theano已被广泛应用于科学运算。theano使得构建深度学习模型更加容易,可以快速实现下列模型:

l  Logistic Regression

l  Multilayer perceptron

l  Deep Convolutional Network

l  Auto Encoders, Denoising Autoencoders

l  Stacked Denoising Auto-Encoders

l  Restricted Boltzmann Machines

l  Deep Belief Networks

l  HMC Sampling

l  Contractive auto-encoders

   Theano,一位希腊美女,Croton最有权势的Milo的女儿,后来成为了毕达哥拉斯的老婆。

项目主页:

http://deeplearning.net/tutorial/

https://pypi.python.org/pypi/Theano

16.      Pylearn2

Pylearn2建立在theano上,部分依赖scikit-learn上,目前Pylearn2正处于开发中,将可以处理向量、图像、视频等数据,提供MLPRBMSDA等深度学习模型。Pylearn2的目标是:

  • Researchers add features as they need them. We avoid getting bogged down by too much top-down planning in advance.
  • A machine learning toolbox for easy scientific experimentation.
  • All models/algorithms published by the LISA lab should have reference implementations in Pylearn2.
  • Pylearn2 may wrap other libraries such as scikits.learn when this is practical
  • Pylearn2 differs from scikits.learn in that Pylearn2 aims to provide great flexibility and make it possible for a researcher to do almost anything, while scikits.learn aims to work as a “black box” that can produce good results even if the user does not understand the implementation
  • Dataset interface for vector, images, video, ...
  • Small framework for all what is needed for one normal MLP/RBM/SDA/Convolution experiments.
  • Easy reuse of sub-component of Pylearn2.
  • Using one sub-component of the library does not force you to use / learn to use all of the other sub-components if you choose not to.
  • Support cross-platform serialization of learned models.
  • Remain approachable enough to be used in the classroom (IFT6266 at the University of Montreal).

项目主页:

http://deeplearning.net/software/pylearn2/

https://github.com/lisa-lab/pylearn2

   还有其他的一些Python的机器学习库,如:

pmll(https://github.com/pavlov99/pmll)

pymining(https://github.com/bartdag/pymining)

ease (https://github.com/edx/ease)

textmining(http://www.christianpeccei.com/textmining/)

更多的机器学习库可通过https://pypi.python.org/pypi查找。

分享到:
评论
2 楼 siphlina 2017-12-06  
课程——基于Python数据分析与机器学习案例实战教程

分享网盘下载——https://pan.baidu.com/s/1mizMFTA 密码: bx5j


Python机器学习视频教程
网盘地址——https://pan.baidu.com/s/1pLvAJX5 密码: 2mw9


课程背景基于数据分析与机器学习领域,使用python作为课程的实战语言,随着大数据与人工智能领域日益火爆,数据分析和机器学习建模成了当下最热门的技术,课程旨在帮助同学们快速掌握python数据分析包以及经典机器学习算法并通过对真实数据集分析进行实战演示。

课程风格通俗易懂,基于真实数据集案例实战。
主体课程分成三个大模块
(1)python数据分析,
(2)机器学习经典算法原理详解,
(3)十大经典案例实战。

通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。

算法课程注重于原理推导与流程解释,结合实例通俗讲解复杂的机器学习算法,并以实战为主,所有课时都结合代码演示。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。旨在帮助同学们快速上手如何使用python库来完整机器学习案例。

选择经典案例基于真实数据集,从数据预处理开始到建立机器学习模型以及效果评估,完整的讲解如何使用python及其常用库进行数据的分析和模型的建立。对于每一个面对的挑战,分析解决问题思路以及如何构造合适的模型并且给出合适评估方法。

在每一个案例中,同学们可以快速掌握如何使用pandas进行数据的预处理和分析,使用matplotlib进行可视化的展示以及基于scikit-learn库的机器学习模型的建立。


第一讲:Python数据分析与机器学习实战课程简介
第二讲:Python快速入门
第三讲:Python科学计算库Numpy
第四讲:Python数据分析处理库Pandas
第五讲:Python可视化库Matplotlib
第六讲:回归算法
第七讲:模型评估
第八讲:K近邻算法
第九讲:决策树与随机森林算法
第十讲:支持向量机
第十一讲:贝叶斯算法
第十二讲:神经网络
第十三讲:Adaboost算法
第十四讲:SVD与推荐
第十五讲:聚类算法
第十六讲:案例实战:使用Python库分析处理Kobe Bryan职业生涯数据
第十七讲:案例实战:信用卡欺诈行为检测
第十八讲:案例实战:泰坦尼克号获救预测
第十九讲:案例实战:鸢尾花数据集分析
第二十讲:案例实战:级联结构的机器学习模型
第二十一讲:案例实战:员工离职预测
第二十二讲:案例实战:使用神经网络进行手写字体识别
第二十三讲:案例实战:主成分分析
第二十四讲:案例实战:基于NLP的股价预测
第二十五讲:案例实战:借贷公司数据分析
1 楼 107x 2017-07-22  
不错,谢谢!

相关推荐

    受欢迎的Python机器学习库盘点共1页.pdf.zip

    本篇文章将深入探讨一些最受欢迎的Python机器学习库,这些库在数据分析、建模和预测方面扮演着重要角色。 1. **Scikit-Learn(sklearn)**:作为最广泛使用的Python机器学习库,Scikit-Learn提供了各种预处理、模型...

    好用的十款Python机器学习库共3页.pdf.zip

    以下是根据标题和描述提及的“好用的十款Python机器学习库”的详细说明: 1. **Scikit-learn**:这是Python中最基础且最全面的机器学习库,包含了各种监督和无监督学习算法,如线性回归、逻辑回归、支持向量机、...

    Python-PyBrain一个Python机器学习库

    PyBrain:一个 Python 机器学习库

    pytorch-Python机器学习库

    pytorch-Python机器学习库

    python机器学习库常用汇总

    主要为大家汇总了常用python机器学习库,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

    Python机器学习库的比较与选择指南.docx

    在选择Python机器学习库时,应考虑以下因素:项目需求(是否需要深度学习、NLP等)、数据量、个人编程经验以及时间限制。初学者通常可以从Scikit-learn开始,然后逐渐探索更高级的库。对于深度学习项目,根据灵活性...

    Python-animal一个用于结构化数据的python机器学习库

    Python-animal是一个专门针对结构化数据的机器学习库,它为Python开发者提供了便捷的工具来处理和分析数据,尤其在机器学习任务中。这个库可能是对现有的Python机器学习框架(如scikit-learn)的一个补充或扩展,...

    Python机器学习库 (Scikits-Learn) User Guide

    Python机器学习库 (Scikits-Learn) User Guide

    python机器学习相关库打包下载

    5. **Scikit-learn**:Scikit-learn是机器学习库的明星,包含了大量的监督和无监督学习算法,如回归、分类、聚类等。此外,它还提供模型选择、特征选择和数据预处理等功能。 6. **TensorFlow**:由Google开发的深度...

    python机器学习教程-从零开始掌握Python机器学习:十四步教程.pdf

    【Python机器学习基础】 Python作为机器学习的首选语言,因其简洁的语法和强大的库支持而备受推崇。在开始机器学习之旅之前,首先需要掌握Python的基础编程技能。这包括理解变量、数据类型、控制结构(如if-else,...

    scipy python 机器学习库

    scipy是科学和工程计算工具。包括处理多维数组,多维数组可以是向量、矩阵、图形(图形图像是像素的二维数组)、表

    53253-Python机器学习编程与实战-习题数据和答案.rar.rar

    《Python机器学习编程与实战-习题数据和答案》这个压缩包文件,正如其名,是针对Python机器学习的学习资源,包含习题的数据和解答,是深入理解和掌握Python机器学习技术的重要辅助材料。通过这份资源,学习者可以...

    scikit-node, python 学习机器学习库的scikit包装器.zip

    scikit-node, python 学习机器学习库的scikit包装器 scikit节点NPM模块 内容什么是scikit节点?安装过程API插件skLearnhelper 方法 什么是scikit节点scikit节点是scikit的一个npm包装器,可以学习 python 库。 使用...

    机器学习实践-案例应用解析-Python机器学习-Python机器学习及实践

    **常用的Python机器学习库** - **Scikit-Learn**:一个简单高效的数据挖掘和数据分析工具包,提供了大量的监督和非监督学习算法。 - **TensorFlow**:由Google开发的开源软件库,用于数值计算和大规模机器学习应用。...

    python机器学习案例

    在本文中,我们将深入探讨"Python机器学习案例"这一主题,包括Logistic回归、K-均值聚类和随机森林等重要算法的应用。这些技术在数据科学领域具有广泛的应用,帮助我们从数据中发现模式、预测未来趋势以及进行决策。...

    [B]Python机器学习基础教程1

    书中详细讲解了如何安装和使用scikit-learn,这是一个强大的机器学习库,包含多种监督和无监督学习算法。此外,还介绍了其他关键的Python库,如Jupyter Notebook用于交互式编程,NumPy和SciPy提供数值计算功能,...

    python机器学习资料小合集

    2. **Python机器学习库**: - Scikit-Learn:提供了各种机器学习算法的实现,包括预处理、模型选择和评估工具。 - TensorFlow和Keras:Google开发的深度学习框架,支持快速构建和训练神经网络。 - PyTorch:...

    深入浅出Python机器学习.pdf

    Python中,进行机器学习研究和应用的库非常丰富。Numpy提供了高效的多维数组运算,是许多科学计算的基础。Scipy是科学计算工具集,包含了统计、信号处理、线性代数等模块,Scikit-learn依赖于Scipy的sparse函数。...

    Python 图机器学习算法库.rar

    1. Scikit-learn: Scikit-learn是一个非常流行的Python机器学习库,提供了各种常用机器学习算法的实现,包括分类、回归、聚类、特征选择、降维等。 2. TensorFlow: TensorFlow是一个开源的人工智能框架,是Google ...

Global site tag (gtag.js) - Google Analytics