
Scikit-learn
Python已经成为数学、科学和统计方面的首选编程语言,因为它易于采用,而且几乎任何应用程序都可以使用这些库。scikit- learn通过在几个现有的Python包——numpy、SciPy和matplotlib——上构建数学和科学工作,利用了这一广度。生成的库可以用于交互式的“工作台”应用程序,或者嵌入到其他软件中并重新使用。该工具包在BSD许可下可用,因此它是完全开放和可重用的。
Project: scikit-learn
GitHub:https://github.com/scikit-learn/scikit-learn
Shogun(幕府)
尊敬的Shogun创建于1999年,并以c++编写,但可以使用Java、Python、c#、Ruby、R、Lua、Octave和Matlab。最新的版本是6.0.0,增加了对Microsoft Windows和Scala语言的本机支持。虽然广受欢迎,但Shogun却有竞争。另一个基于c++的机器学习库MLpack,自2011年以来就一直在使用,但是它声称比竞争库更容易使用(通过更完整的API集)。
Project:Shogun
GitHub:https://github.com/shogun-toolbox/shogun
Accord.Net Framework
Accord,机器学习和信号处理框架。.Net是之前一个项目的扩展,协议包括一组用于处理音频信号和图像流的库(如视频)。它的视觉处理算法可以用于人脸检测、拼接图像或追踪移动对象等任务。协议还包括提供更传统的机器学习功能的库,从神经网络到决策树系统。
Project:Accord.Net Framework
GitHub:https://github.com/accord-net/framework/
Apache Mahout
Apache Mahout长期以来与Hadoop捆绑在一起,但它旗下的许多算法也可以在Hadoop之外运行。它们对于独立应用程序非常有用,这些应用程序最终可能会迁移到Hadoop或Hadoop项目中,这些项目可能会被拆分为独立的应用程序。最后几个版本增强了对高perfomance Spark框架的支持,并增加了对GPU加速线性代数的ViennaCL库的支持。
Project:Apache Mahout
Spark MLlib
MLlib是Apache Spark和Apache Hadoop的机器学习库,它拥有许多常见的算法和有用的数据类型,设计以速度和规模运行。尽管Java是在MLlib工作的主要语言,Python用户可以将MLlib与NumPy库连接起来,Scala用户可以编写针对MLlib的代码,并且R用户可以在1.5版中插入Spark。另一个项目,MLbase,建立在MLlib之上,使其更容易获得结果。用户不需要编写代码,而是通过一种声明式语言à la来进行查询。
Project:Spark MLlib
官网:https://spark.apache.org/mllib/
H2O
H2O的算法主要针对业务流程——比如欺诈或趋势预测——而不是图像分析。H2O可以以独立的方式与HDFS存储、在YARN、MapReduce中,或者直接在Amazon EC2实例中交互。Hadoop mavens可以使用Java与H2O进行交互,但该框架还为Python、R和Scala提供了绑定,允许您与这些平台上的所有库交互。
Project:H2O
GitHub:https://github.com/0xdata/h2o
Cloudera Oryx
Oryx是Cloudera Hadoop发行版的创建者,它使用Spark和Kafka流处理框架来运行实时数据的机器学习模型。Oryx提供了一种方法来构建需要决策的项目,比如推荐引擎或实时异常检测,这些都是由新的和历史数据提供的。版本2.0是对项目的近乎完全的重新设计,其组件在lambda体系结构中松散耦合。新的算法,以及这些算法的新抽象,对于超参数选择,可以随时添加。
Project:Cloudera Oryx
GitHub:https://github.com/cloudera/oryx
GoLearn
据开发人员斯蒂芬·惠特沃斯(Stephen Whitworth)说,GoLearn是一个为谷歌的Go语言学习的机器学习库,它的目标是简单和可定制。它的简单性在于数据在库中加载和处理的方式,这种方式是在SciPy和R语言之后进行的,而定制的功能在于如何在应用程序中轻松地扩展某些数据结构。惠特沃斯还为Vowpal Wabbit库创建了一个Go包装器,这是在Shogun工具箱中发现的一个库。
Project:GoLearn
GitHub:https://github.com/sjwhitworth/golearn
Weka
Weka是一组专门用于数据挖掘的Java机器学习算法。这个GNU gplv3许可的集合有一个包系统来扩展它的功能,包括官方的和非官方的软件包。Weka甚至还带了一本书来解释软件和使用的技术。虽然Weka并没有专门针对Hadoop用户,但由于一组包装器,最新的版本可以与Hadoop一起使用。注意,Weka还不支持Spark,只有MapReduce。Clojure用户可以通过clj - ml库利用Weka。
Project:Weka
官网:http://www.cs.waikato.ac.nz/ml/weka/
Deeplearn.js
在web浏览器中深度学习的另一个项目,Deeplearn.js,通过谷歌来实现。神经网络模型可以直接在任何现代浏览器中进行训练,而不需要额外的客户端软件。Deeplearn.js还可以通过WebGL API进行gpu加速计算,因此性能并不局限于系统的CPU。项目中可用的函数是在谷歌的TensorFlow之后形成的,这使得该项目的用户可以轻松地开始使用这个项目。
Project:Deeplearn.js
官网:https://pair-code.github.io/deeplearnjs/
ConvNetJS
Project:ConvNetJS
GitHub:https://github.com/karpathy/convnetjs
原 文: 11 open source tools to make the most of machine learning
相关推荐
OpenMLDB是一个专注于机器学习领域的开源数据库,它的主要目标是为各类机器学习应用程序提供准确且高效的数据支持。作为一款专为机器学习设计的数据库,OpenMLDB具备一系列独特的特性和功能,使其在处理大规模机器...
以本次提供的"Python中的开源低代码机器学习库.zip"压缩包中的内容为例,我们可以预见其可能包含了一个或多个低代码机器学习库的相关文件。在当前的Python社区中,像Pycaret这样的库已经受到了广泛的关注和应用。...
SystemML由IBM提供,它是一个面向大规模数据集的机器学习算法,旨在充分利用多核CPU和集群计算资源,实现大数据的高效处理。 14. TensorFlow TensorFlow是由谷歌开发的一个开源机器学习库,目前已成为业界最受欢迎...
幸运的是,为了降低机器学习的门槛,众多工具和平台应运而生,它们让没有编程背景的用户也能轻松上手,并利用机器学习技术解决实际问题。下面,我们将详细介绍六种在这一领域内具有代表性的工具。 首先是AutoML...
TensorFlow在Android平台的应用,意味着开发者可以充分利用设备的计算资源来训练和部署机器学习模型。 本项目共有39个文件,包括了资源文件、布局文件、Java类文件和构建脚本等。资源文件中包含了10个PNG图像,这些...
在Windows操作系统下,可以选择64位版本的JDK和JRE,以充分利用多核处理器和大内存的优势,这对于处理大规模数据和复杂的机器学习任务至关重要。 在构建机器学习平台时,Java工具如Apache Maven、Gradle等项目管理...
在Python开发领域,尤其是在机器学习这一分支中,有一个值得关注的开源项目——Fregata。由 TalkingData 推出的Fregata是一个专为大规模机器学习设计的算法库,旨在解决在海量数据上的高效计算和模型训练问题。本文...
同时,techstar-ai充分利用大数据处理的优势,能有效处理大规模数据集,提高了机器学习的效率和准确性。 在techstar-ai框架中,关键组件包括数据预处理模块、模型构建模块、训练模块和评估模块。数据预处理模块提供...
机器学习是当今信息技术领域中一个非常热门和重要的分支。它以计算机科学、统计学、人工智能为理论基础,通过算法使计算机系统从大量...开发者如果能够充分利用这些资源,将会在机器学习领域取得更加快速和高效的发展。
本资源提供了一个名为"Interactive_Tools-master"的压缩包,很可能包含了若干用于这些目的的开源工具或库。 在机器学习中,交互式工具通常包含数据可视化、模型训练和评估等功能。例如,它可能包括像Jupyter ...
例如,ML.NET是一个开源的、跨平台的机器学习框架,它允许开发者在.NET应用程序中直接集成机器学习功能。ML.NET提供了一系列的机器学习算法,如分类、回归、聚类等,并且与Visual Studio等开发环境紧密集成,极大地...
PyTorch 是一款开源的机器学习库,支持在 Python 环境中运行,它被广泛用于...PyTorch 作为一款开源的机器学习库,不仅具有强大的技术支持,而且拥有活跃的社区和丰富的资源,是机器学习和人工智能领域的重要工具。
在机器学习的研究和应用中,Jupyter Notebook是一个非常流行的工具。它是一个开源的Web应用程序,允许用户创建和共享包含实时代码、方程式、可视化和文本的文档。Jupyter Notebook特别适用于数据清洗和转换、统计...
5. **医疗诊断**:利用机器学习方法辅助医生进行疾病诊断。 总之,JSATJava作为一款强大的机器学习库,提供了全面的数据预处理工具和多样化的算法,支持多线程处理,使得开发者能在Java环境中高效地进行机器学习...
亚马逊机器学习库,名为"Amazon DSSTNE"(Deep Scalable Sparse Tensor-Network Engine),是亚马逊公司为了应对大规模机器学习任务而开发的一个开源库。DSSTNE的核心目标是处理高维度、稀疏数据,尤其适合电子商务...
平台的整体架构充分考虑了高可用性和扩展性,能够有效地支持机器学习项目从原型开发到生产部署的全过程。利用Spark的强大计算能力和Kubernetes灵活的资源管理,该平台在提供高性能计算的同时,也保证了服务的高可靠...
在本项目中,开发者创建了一个综合的机器学习和深度学习训练工具,该工具结合了sklearn与PyTorch两个强大的库。这样的设计旨在提供一个高效、灵活且易于使用的平台,帮助数据科学家和研究人员进行模型训练和优化。接...
在机器学习领域,TensorFlow是一个不可或缺的工具,它是一个基于数据流编程的开源库,用于构建和训练复杂的机器学习模型。TensorFlow源自谷歌的DistBelief项目,旨在提供更加高效和灵活的平台,支持各种机器学习算法...