`
liangyan9966
  • 浏览: 39835 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

KDnuggets调查|数据科学家最常用的10种算法

 
阅读更多
阅读全文http://click.aliyun.com/m/23109/

0?wx_fmt=jpeg
最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦!


根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的12个月中,你在实际数据科学相关应用中用到了那些模型/算法?


于是就有了以下基于844份答卷的结果。



◆ ◆ ◆

排名前十的算法和它们在投票者中所占比例





0?wx_fmt=png

图1:数据科学家最常用的10大算法,所有算法见文末表格



每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增长。



相比2011年对数据分析算法的调查,我们注意到最常用的方法仍然是回归,聚类,决策树/规则以及可视化。比例增幅最大的是(增幅=%2016/%2011 -1):



Boosting算法,提升了40%。由2011年的23.5%提升倒2016年的40%

文本挖掘(Text Mining),提升了30%。从27.7%提升到35.9%

可视化(Visualization),提升了27%。从38.3%提升到48.7%

时间序列/序列分析(Time series/Sequence analysis),提升了25%。从29.6%提升到37.0%

异常检测(Anomaly/Deviation detection),提升了19%,从16.4%提升到19.5%

组合方法(Ensemble methods),提升了19%,从28.3%提升到33.6%

支持向量机(SVM),提升了18%,从28.6%提升到33.6%

回归(Regression),提升了16%,从57.9%提升到67.1%
阅读全文http://click.aliyun.com/m/23109/
分享到:
评论

相关推荐

    Python培训之Python超过R,成为数据科学和机器学习的最常用语言.docx

    Python在近年来已成为数据科学和机器学习领域的首选语言,这一趋势在KDnuggets的调查结果中得到了证实。2016年,Python的使用者占比34%,而R的使用者占比42%,到了2017年,Python的使用者占比跃升至41%,超过了R的36...

    KDNuggets-Data-Mining-Course:一个简单的Golang程序,可让您从KDNuggets数据挖掘课程的网站下载所有幻灯片

    KDNuggets数据挖掘课程下载器 新的学年开始了,我一直想向最著名的作家或书籍学习。 在数据挖掘字段中,KDNuggets网站( )是授权机构。 它有一个特定的部分(data_mining_course),使您可以访问一些有关数据挖掘的...

    数据挖掘工具SAS Enterprise Miner进展研究.pdf

    对于需要根据数据制定决策的工程师和科学家而言,SAS Enterprise Miner提供了强大的技术支持。 本文还提到,世界著名数据挖掘网站kdnuggets在其栏目“数据挖掘软件”中给出的数据挖掘工具分类中,SAS在多个类别中均...

    开源数据集.pdf

    - **MNIST**:手写数字图像数据集,是最常用的数据集之一。 - **地址**:[http://yann.lecun.com/exdb/mnist/](http://yann.lecun.com/exdb/mnist/) - **特点**:格式为25x25、居中、黑白手写数字。 - **CIFAR10/...

    R语言在大数据处理中的应用_杨霞.pdf

    这种结合使得数据科学家能够在熟悉的R环境中处理大规模数据,同时利用Hadoop的分布式计算能力提高效率。 R语言在大数据处理中的应用不仅限于统计分析,还包括数据挖掘和机器学习。在数据挖掘方面,R语言提供了许多...

    数据挖掘资料 数据挖掘

    数据挖掘是一种从大量数据中提取有用信息的过程,这些信息可以被用于决策支持系统、预测模型以及其他形式的知识发现。数据挖掘技术在商业智能、科学研究、工程应用等多个领域都有着广泛的应用。本文将基于提供的链接...

    《Scikit-Learn_教學:Python_與機器學習_(Article)》

    机器学习是一种计算机科学领域,旨在设计出能够通过数据学习并进行预测的算法。其核心在于让计算机从已知数据中自动提取模式,并应用于未知数据的预测。这包括了概念学习、函数学习、预测建模、聚类分析以及寻找预测...

    数据挖掘资源列表

    - **Weka**: 一套用Java语言编写的机器学习软件包,包含了丰富的数据预处理工具和算法。 - **GNU R**: 一种用于统计计算、数据挖掘和图形制作的编程语言和软件环境。 2. **商业软件**: - **SAS Enterprise**: SAS...

    人工智能、大数据与深度学习之间的关系和差异.docx

    KDnuggets 的 Gregory Piatetsky-Shapiro 的维恩图概述了我们将要讨论的数据科学术语之间的关系。我们可以看到,大数据、机器学习、数据挖掘和深度学习之间的关系是复杂的,但是它们之间的联系是紧密的。 我们可以...

    数据挖掘方面的资源、期刊、会议的网址集合

    如《KDnuggets》是一个综合性的数据科学网站,提供新闻、教程、招聘信息等;《ChinaKDD》是中国数据挖掘研究的平台,包含大量中文资料。《Open Directory Project》下的数据挖掘分类目录提供了一系列相关网站链接。...

    数据分析领域权威资源推荐

    数据科学博客则涵盖了Towards Data Science、Data Science Central和KDNuggets三大平台;关于数据可视化工具有Tableau、Power BI 和D3.js,提供了具体的学习途径和支持;数据集与实操练习平台提到了Kaggle、UCI ...

    数据挖掘工具的评判 数据挖掘

    据KDnuggets统计,市面上已有超过50种不同的数据挖掘工具。 数据挖掘工具进一步可分为企业级和小型工具。企业级工具如IBM的Intelligent Miner和SAS的Enterprise Miner,适合大型项目,具有高处理能力、多平台支持、...

    kdnuggets-data-mining-course

    《Kdnuggets数据挖掘课程》是一门深入探讨数据挖掘技术的专业课程,旨在提升学习者在数据处理、分析和预测方面的能力。课程内容涵盖了数据挖掘的多个重要领域,包括数据预处理、建模、评估以及实际应用。通过完成...

    R语言在大数据处理中的应用

    根据KDNuggets的调查,R语言在2012年的数据挖掘和分析工具使用中位居首位,超越了Python、SQL、Java和SAS等其他语言。Rexer Analytics的报告也显示,R语言在数据挖掘工具中连续几年保持领先,表明其在业界的影响力...

    数据挖掘相关的权威期刊和会议

    数据挖掘是计算机科学中的一个重要分支,主要涉及从大量的数据中提取出有用的信息或模式。随着大数据时代的到来,数据挖掘技术的应用越来越广泛,对于学术研究和工业实践都具有重要的意义。为了促进这一领域的发展,...

    从 UCI 机器学习库中对葡萄酒质量数据集进行特征选择 2018 年 6 月 18 日来自 KDnuggets 的 Matthe

    import pandas as pd # to use it's read_csv funtion to read the data set import os # to use it's chdir function set working direction df=pd.read_csv('winequality-white.csv', sep=";") # reading and ...

    机器学习:入门方法与学习路径

    同时,学习Python编程语言,因为它是目前机器学习领域最常用的工具之一,拥有丰富的库支持。 然后,实践是检验理论的最好方式。可以通过完成Kaggle等在线数据科学竞赛或GitHub上的开源项目,来提升实战技能。在这些...

    matlab导入excel代码-adfasdf2:adfasdf2

    matlab导入excel代码大卫的学习数据科学的个人路线图 基于KDnuggets的文章。 进行了一些补充。...16.下一代数据科学家,傲慢与道德 彼得·布鲁斯(Peter Bruce),安德鲁·布鲁斯(Andrew Bruce)和彼

    数据挖掘概念与技术(中文版)

    《数据挖掘概念与技术》曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注...

    基于开源URL数据字符串特征的恶意性检测项目源码+数据集+模型+项目说明.7z

    从kdnuggets上收集到了带标签(good/bad)的URL数据集,共416350条,其中异常数据(bad)71556条,占比17.19%; 正常数据(good)344794条,占比82.81%。 将全体数据划分为训练集(70%),验证集(15%)和测试集(15...

Global site tag (gtag.js) - Google Analytics