原文链接:
http://click.aliyun.com/m/26066/
摘要: 本文概述了学习数据挖掘与数据科学的七个步骤,每一步都给出了详细的学习资源,便于初学者按照指南开展数据挖掘与数据科学的学习。
首发地址:https://yq.aliyun.com/articles/68449
想知道如何学习数据挖掘和数据科学吗?本文概述了七个步骤,指出的资源能让你成为一名数据科学家。
作者为Gregory Piatetsky,是一名数据挖掘与数据科学方面的专家。
208d17688bcff0df08dbd8d6fab25db9d0cf32bf
以下为7个步骤用于学习数据挖掘和数据科学。虽然有编号顺序,你也可以并行或以不同的顺序学习:
1 语音:学习R、Python以及SQL语音;
2 工具:了解如何使用数据挖掘和可视化工具;
3 教材:阅读介绍性的教科书,了解基础知识;
4 教育:观看网络研讨会,参加课程,考虑获得数据科学中的证书或学位;
5 数据:检查可用的数据资源并在那里找到东西;
6 竞赛:参加数据挖掘竞赛;
7 通过社交网络,团体和会议与其他数据科学家交流;
另外,不要忘记订阅KDnuggets新闻邮件,并跟随@kdnuggets了解关于分析、大数据、数据挖掘和数据科学的最新消息。
交互使用数据挖掘与数据科学——见我的分析行业概览报告,报告中有关于相关术语的演变和普及,比如统计、知识发现、数据挖掘、预测分析、数据科学以及大数据。
1 学习语言
民意调查表明,数据挖掘最流行的语言是R,Python和SQL语言。
这里有很多的资源,比如:
免费电子书资源关于R语音的数据科学;
Python数据科学入门;
Python数据分析:现实世界数据的灵活工具;
不可或缺的Python:数据源到数据科学;
W3学校学习SQL;
2 工具:数据挖掘,数据科学和可视化软件
许多的数据挖掘工具应用于不同的任务,但最好是使用支持数据分析的整个过程的数据挖掘套件。
你可以使用开源(免费)的工具,如启动KNIME,RapidMiner和Weka。
然而,对于许多分析工作还需要知道SAS,它是全球领先的商业工具并得到广泛应用。
其他受欢迎的分析和数据挖掘软件包括MATLAB、StatSoft推出STATISTICA,Microsoft SQL Server、IBM SPSS Modeler以及Rattle。
可视化是任何数据分析的重要组成部分——学习如何使用Microsoft Excel,R graphics,以及Tableau 。其它好的可视化工具包括TIBCO Spotfire和Miner3D。
3教材
网络上有很多的数据挖掘和数据科学教材,但你可以参考以下这些:
数据挖掘与分析:基本概念与算法
数据挖掘:机器学习工具实践与方法
统计学习、数据挖掘以及预测的要素
LION书籍:学习与智能优化
大数据集挖掘
StatSoft推出的电子统计教材
4 教育:网络研讨会、课程、证书以及学位
可以通过观看一些许多免费的关于数据分析、大数据,数据挖掘和数据科学的网络研讨会和网络直播开始学习。
也有许多短期和长期的在线课程,其中许多是免费的-见KDnuggets在线教育目录。
特别参考以下课程:
机器学习
从数据中学习
开放式在线学习应用数据科学
使用Weka进行数据挖掘
本文作者的数据挖掘课程
最后,考虑获得关于数据挖掘和数据科学的证书或高级学位,如MS-见KDnuggets关于分析、数据挖掘和数据科学教育的目录。
5 数据
你需要数据进行分析-见KDnuggets关于数据挖掘的目录,包含:
政府、联邦、州、城市、本地和公共数据站点和门户
数据API、集线器、商场、平台、门户和搜索引擎
免费公共数据集
6 竞争
再一次强调,最好是边学边做,所以在学习的同时也可以参加Kaggle竞赛 -从初学者竞赛开始,比如使用机器学习预测泰坦尼克号生存。
7 交流:会议、团体和社交网络
你可以加入许多同类团体-见关于分析、大数据,数据挖掘以及数据科学前30的 LinkedIn组织。
AnalyticBridge是一个分析和数据科学活跃的社区。
你也可以参加一些关于分析、大数据、数据挖掘、数据科学与知识发现的会议和研讨会。
此外,考虑加入ACM SIGKDD,它会举办一年一度的KDD大会——该领域领先的研究会议。
更多……
还可以参考其它的回答:
如何开始学习数据科学
关于数据科学的使用简介
通过Metromap课程成为一名数据科学家
获取免费数据科学教育
本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。
文章原标题《7 Steps for Learning Data Mining and Data Science》,作者:Gregory Piatetsky,译者:海棠
文章为简译,更为详细的内容,请查看原文
本文由用户为个人学习及研究之目的自行翻译发表,如发现侵犯原作者的版权,请与社区联系处理yqgroup@service.aliyun.com
原文链接:
http://click.aliyun.com/m/26066/
分享到:
相关推荐
在本资源中,"python数据挖掘机器学习实战(代码+数据集)——家用电器用户行为分析与事件识别.zip",我们可以深入探讨多个重要的IT知识点,尤其是聚焦于数据挖掘和Python编程在机器学习中的应用。 首先,我们要...
【标题】"CNCC 2019 计算机经典算法回顾与展望——机器学习与数据挖掘论坛" 涵盖了计算机科学领域的核心主题,特别是机器学习和数据挖掘方面的重要算法。这个论坛汇聚了业界专家和学者,他们分享了各自的见解和研究...
数据挖掘是一种从大量数据中发现有价值信息的过程,它结合了统计学、计算机科学和人工智能等多个领域的知识。在本文档中,作者Xuejun Yang详细介绍了数据挖掘中的关键算法,并提供了Python实现,帮助读者深入理解并...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等多个领域的技术。在“浙大-数据挖掘——王灿PPT”这套完整的课程材料中,王灿教授深入浅出地讲解了数据挖掘的核心概念、...
"ionosphere"数据集是这样一个宝贵的资源,尤其适用于初学者进行Python数据挖掘的学习与实践。这个数据集源于1985年,是由加拿大阿尔伯塔大学的研究者们收集的,主要目标是识别离子层反射雷达信号的特征,以判断其...
太原科技大学计算机科学与技术学院的赵旭俊、蔡江辉、马洋、杨海峰和赵志诚等多位学者联合撰写的研究成果表明,大数据科研成果可以有效支撑和改进教学研究,具体到《数据挖掘与智能决策》这门课程的教学过程中,科研...
综上所述,RFID技术与数据挖掘技术在高校图书馆图书复本配置优化中的应用具有巨大的潜力,能够帮助图书馆更加高效、精准地管理图书资源,满足读者需求,提升服务水平,是未来图书馆发展的重要方向。
以“挖掘数据挑战”项目为例,它得到了美国国家人文基金会的支持,项目中图书情报学专业人员通过科学计量学、元数据技术、音频档案数据挖掘和数字历史等方面的研究,展现了图书情报学在数字人文研究中的积极作用。...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等多个领域的理论与方法。《数据挖掘:概念与技术》是由韩家炜和M. Kamber合著的一本经典教材,由Morgan Kaufmann出版社出版...
《Python数据挖掘与机器学习实战:基于基站定位数据的商圈分析》 在现代大数据时代,数据已经成为企业决策的重要依据,特别是在商业智能领域。本资源包是关于如何利用Python进行数据挖掘和机器学习的一次实战应用,...
在本资源包中,我们关注的是使用R语言进行数据挖掘的实际操作,这涉及到一系列的数据分析技术和方法。以下是一些相关的知识点: 1. **R语言**:R是一种专门用于统计计算和图形绘制的开源编程语言,广泛应用于数据...
在本资源包“python数据挖掘机器学习实战(代码+数据集)——环境质量状况评价.zip”中,我们探讨的是如何利用Python进行数据挖掘和机器学习技术来分析环境质量状况。这个实战项目旨在帮助学习者掌握如何处理实际...
数据挖掘是一种从海量数据中发现有价值知识的过程,它结合了计算机科学、统计学和机器学习等领域的技术。在这个领域,我们关注的是从原始数据中提取潜在的模式、规律和关联,以便于决策支持、预测未来趋势以及优化...
总结,这个压缩包资源是一个全面的Python数据挖掘与机器学习实践教程,涵盖了数据预处理、模型构建、结果评估等多个环节,对于提升你在系统负载分析和磁盘容量预测方面的技能大有裨益。同时,通过实际操作,你将深入...
在本资源中,"python数据挖掘机器学习实战(代码+数据集)——航空公司客户价值分析.zip" 提供了一个深入学习Python数据挖掘和机器学习应用于实际问题的实例,具体是针对航空公司客户的细分和价值评估。这个项目的...
新媒体数据挖掘——基于R语言是一项重要的信息技术应用,它结合了新闻传播学与计算机科学,旨在从海量的新媒体数据中提取有价值的信息,进行分析并形成洞察。R语言作为一款强大的统计分析和图形绘制工具,被广泛用于...
数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等领域的技术。在武汉大学的博/硕士课程中,这一主题被深入探讨,旨在培养高级人才掌握数据挖掘的核心概念、方法和技术。PPT...
本文旨在探讨统计学与数据挖掘的关系,分析两者的特点,并提出它们之间应如何互相学习和渗透,共同挖掘隐藏在复杂现象背后的有价值知识。 #### 二、统计学与数据挖掘的基本概念 ##### (一)统计学 统计学最初...
KDD与数据挖掘 数据挖掘方法 数据挖掘的应用和发展趋势 数据预处理 可视化数据挖掘 什么激发了数据挖掘 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将...
在本资源中,“python数据挖掘机器学习实战(代码+数据集)——电子商务网站用户行为分析及服务推荐.zip”提供了一个全面的学习平台,旨在教授如何利用Python进行数据挖掘和机器学习,特别是针对电子商务网站的用户...