2016 年十大 Python 机器学习开源项目

0顶
0踩

2016-11-25 09:50 by 资深记者 jforever 评论(0) 有7742人浏览

数据挖掘

2016年十大Python机器学习开源项目

1、Scikit-learn 用于数据挖掘和数据分析的简单而有效的工具，基于NumPy，SciPy和matplotlib，开源，商业可用的BSD许可证。
Commits: 21486, Contributors: 736, Github地址: Scikit-learn

2、Tensorflow 最初由Google机器智能研究机构的Google Brain小组的研究人员和工程师开发。该系统旨在促进机器学习的研究，并使其快速和容易地从研究原型过渡到生产系统。
Commits: 10466, Contributors: 493, Github地址: Tensorflow

3、Theano 允许您有效地定义，优化和评估涉及多维数组的数学表达式。
Commits: 24108, Contributors: 263, Github URL: Theano

4、Caffe is一个深入学习的框架，速度快和模块化。它由伯克利视觉和学习中心（BVLC）和社区贡献者开发。
Commits: 3801, Contributors: 215, Github URL: Caffe

5、Gensim is 一个免费的Python库，具有诸如可扩展的统计语义之类的特性，分析用于语义结构的纯文本文档，从语义上检索类似的文档。
Commits: 2702, Contributors: 145, Github URL: Gensim

6、Pylearn2 是一个机器学习库。它的大部分功能是建立在Theano的基础之上。这意味着您可以使用数学表达式编写Pylearn2插件（新模型，算法等），Theano将为您优化和稳定这些表达式，并将其编译为您选择的后端（CPU或GPU）。
Commits: 7100, Contributors: 115, Github URL: Pylearn2

7、Statsmodels 是一个Python模块，允许用户探索数据，估计统计模型和执行统计测试。描述性统计，统计测试，绘图函数和结果统计的详细列表可用于不同类型的数据和每个估计器。
Commits: 8664, Contributors: 108, Github URL: Statsmodels

8、Shogun是机器学习工具箱，提供广泛的统一和高效的机器学习（ML）方法。工具箱无缝地允许容易地组合多个数据表示，算法类和通用工具。
Commits: 15172 Contributors: 105, Github URL: Shogun

9、Chainer 一个用于深度学习模型的基于Python的独立开源框架。 Chainer提供灵活，直观和高性能的方法来实现全范围的深度学习模型，包括最先进的模型，如复现神经网络和变分自动编码器。
Commits: 6298, Contributors: 84, Github URL: Chainer

10、NuPIC 是基于称为分层时间存储器（HTM）的新皮层理论的开源项目。 HTM理论的一部分已经在应用中实现，测试和使用，并且HTM理论的其他部分仍在开发中。
Commits: 6088, Contributors: 76, Github URL: NuPIC

11、Neon是Nervana的基于Python的深度学习库。它提供易用性，同时提供最高的性能。
Commits: 875, Contributors: 47, Github URL: Neon

12、Nilearn 一个Python模块，用于在NeuroImaging数据上快速轻松地进行统计学习。它利用scikit-learn Python工具箱来处理多变量统计信息，包括预测建模，分类，解码或连接分析。
Commits: 5254, Contributors: 46, Github URL: Nilearn

13、Orange3是开源机器学习和数据可视化的新手和专家。具有大型工具箱的交互式数据分析工作流程。
Commits: 6356, Contributors: 40, Github URL: Orange3

14、Pymc 一个实现贝叶斯统计模型和拟合算法的python模块，包括马尔可夫链蒙特卡罗。其灵活性和可扩展性使其适用于大量问题。
Commits: 2701, Contributors: 37, Github URL: Pymc

15、PyBrain is 一个用于Python的模块化机器学习库。它的目标是为机器学习任务提供灵活，易于使用但仍然强大的算法，以及各种预定义环境，以测试和比较您的算法。
Commits: 984, Contributors: 31, Github URL: PyBrain

16、Fuel 是一个数据管道框架，为您的机器学习模型提供他们需要的数据。它计划被Blocks 和Pylearn2神经网络库使用。
Commits: 1053, Contributors: 29, Github URL: Fuel

17、PyMVPA 是一个Python包，旨在简化大型数据集的统计学习分析。它提供了一个可扩展的框架，具有用于分类，回归，特征选择，数据导入和导出的广泛算法的高级接口。
Commits: 9258, Contributors: 26, Github URL: PyMVPA

18、Annoy (Approximate Nearest Neighbors Oh Yeah)是一个C ++库，使用Python绑定来搜索靠近给定查询点的空间中的点。它还创建大型只读的基于文件的数据结构，这些数据结构被映射到内存中，以便许多进程可以共享相同的数据。
Commits: 365, Contributors: 24, Github URL: Annoy

19、Deap 一个用于快速原型和测试思想的新型进化计算框架。它试图使算法显式和数据结构透明。它与并行机制（例如多处理和SCOOP）完美协调。
Commits: 1854, Contributors: 21, Github URL: Deap

20、Pattern 是Python编程语言的Web挖掘模块。它捆绑了数据挖掘工具（Google + Twitter +维基百科API，网络爬虫，HTML DOM解析器），自然语言处理（词性标记，n元语法搜索，情感分析，WordNet），机器学习，k-means聚类，朴素贝叶斯+ k-NN + SVM分类器）和网络分析（图形中心性和可视化）。
Commits: 943, Contributors: 20 , Github URL: Pattern

CTOLib.com编译：http://python.ctolib.com/topics/96710.html