阅读更多
Olivier Grisel(OG)本人在Inria Parietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机器学习、文本挖掘和自然语言处理领域的专家。大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听。

上一篇博文里(CSDN译文:[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来),我记录了谈话的内容,他们主要探讨了scikit-learn和MLlib,同时OG还对大数据的走向给出了一个自己的观点。访谈中,Olivier讨论了scikit-learn的发展方向,探讨了要如何发展才能足以抗衡新的机器学习库,如原本就设计在分布式数据框中工作的MLlib。期间,他沉醉于比较两个库的优势以及scikit-learn是如何发展到能够对不能在单一服务器上进行处理的数据执行计算。

今天,Olivier深入到技术层面进行探讨,他回答了数据科学初学者提出的所有问题。



不要等待,数据科学从现在开始!

明智地选择大规模

FD:这个问题来自某个机器学习初学者,他不知道该使用哪个框架和算法可以获得更强的扩展能力,你有什么建议呢?

OG:一个很好的规则就是根据你最终必需处理的数据量来抉择,当然还要把未来数据的增量考虑进去。最近,一台配置很好的机器可以有上百G的RAM。当然,原始数据集可能比这更大。一旦你提取了特征并将其转为数值表,你就可以得到更小的数据集,那样你就可以在内存中处理数据并使用scikit-learn运行预测模型。实际上,想要你的系统具有可扩展性,并不意味着你就必须使用MLlib。

大数据基础设施的挑战

FD:人们开始考虑如何管理大量的数据,对于如何得到一个很好的衡量标准,你的建议是什么呢?

OG:在你开始做机器学习之前,从一个基本模型开始很重要。比如,你可以对这些基本模型计算平均值。当你在Spark中做这些基本计算时,你可以看看管道和处理时间,确保在你的模型变得复杂之前,你没有设置一些多余的东西。

我建议他们选择自己数据中的一个子样本,在内存中能装得下,这样就可以使用所有可用的算法来做比较机器学习的分析结果,甚至是那些永远不能部署到整个集群的算法。你要记住,MLlib是通过限制它的算法面板来达到可扩展性功能。这表示它们如今的库并不像R或Python包那样多。子样本总归还是好的,回到小数据世界能确保你遵循正确的方法。

事实上,你也应该这样做,这样你就可以确保当你向你的样本添加更多的数据时,实际上你是在提高你的模型性能。这有利于检查。

将工作分析流程从一种语言(如Python)复制到另一种(如R或Scale),也是个不错的想法。像Data Science Studio这种工具,它使得在同一个数据上使用不同的编程语言设计两个管道变得更加容易。有些操作可能在另一些框架上表现的更自然或者更加高效,而且做这种管道转变训练是建立实践直觉的快速方式。一旦你的两个管道产生了一致的输出,那么你可以去请教经验丰富的同事或者专家朋友来帮你快速地检查下代码。他(她)应该知道如何使你的代码更加高效或更加精简并且避免语法错误。

FD:你可以给出一些你或者你的团队使用scikit-learn运行大数据集的例子么?

OG:这真的取决于我们正在研究和试验中的模型。当样本上升到数以万计的时候,一些模型就会失效。我们团队研究的数据集大概有百万兆字节,但是他们做了大量的预处理和降维操作。

对于缺乏经验的用户,这一点真的必须考虑。如果他们研究的数据集真的足够大,他们可能自然而然地选择使用Spark。但这种方法最终可能会以效率较低而失败告终。如果他们多给予一点思考,原本使用Spark需要消耗CPU几个小时来计算的任务,在笔记本上使用scikit-learn可能5分钟就完成了。实际上每种新的技术都是一把双刃剑。

Python VS R

FD:对于数据科学初学者而言,应该如何选择学习哪种语言和框架呢,你有好的建议么?

OG:个人认为,你必须根据你的喜好来选择,如果你身边有这方面的专家,你还可以依据他的情况而定。在数据科学中,交流可以让你学到更多的知识。如果你去参加聚会或者与其他人报名参加Kaggle比赛,那么你一定要抓住与专家互动交流的机会,这真的很重要。与他们相互交流学习的技巧和诀窍是学习数据科学很好的方式。

之后,将分析思路用另一个框架来表达就更加容易了。如果你掌握了一种语言,这种学习语言的方法是一样的。这一点最重要。这对于像Data Science Studio这种工具也是很有用的。你可以用它在一个环境下尝试不同的语言和技术。当你能轻松的比较结果时,将分析思路从一种语言翻译成另一种语言其实很简单,比如Python和R。




最后,让我们再次感谢Olivier!

原文链接:[Interview] Tips for aspiring Data Scientist by Data Master Olivier Grisel (part 2)(编译/刘帝伟 审校/朱正贵、赵屹华 责编/周建丁)
  • 大小: 86.4 KB
  • 大小: 25.9 KB
0
1
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 讲座实验室:幻灯片和Jupyter笔记本,用于巴黎理工学院2年级数据科学硕士的深度学习讲座

    深度学习课程:讲义幻灯片和实验笔记本 本课程是作为一部分授课的 目录 该课程涵盖了深度学习的基础知识...本讲座由Olivier Grisel和Charles Ollion制作和维护 查尔斯Ollion,在研究主管 -奥利维尔GRISEL,在软件工程

  • [转][访谈]数据大师Olivier Grisel给志向高远的数据科学家的指引

    今天,Olivier深入到技术层面进行探讨,他回答了数据科学初学者提出的所有问题。   不要等待,数据科学从现在开始! 明智地选择大规模 FD:这个问题来自某个机器学习初学者,他不知道该使用哪个框架和...

  • 数据大师Olivier Grisel给志向高远的数据科学家的指引

    此篇是采访的第二部分,主要讨论初级数据科学家可以使用的一些技巧和诀窍。 Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机...

  • [转][访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

    几周前,我们的FlorianDouetteau(FD)对OlivierGrisel(OG)进行了一次访谈,正好我...Olivier是scikit-learn机器学习库的主要贡献者,因此他们两个详细地讨论了Olivier的工作和其它技术的发展。这是采访的第一部分...

  • 常用数据集链接

    CVonline:图像数据库 ... 一般RGBD和深度数据集 一般视频 手,掌握,手动和手势数据库 图像,视频和形状数据库检索 对象数据库 人(静),人体姿势 人员检测和跟踪数据库(另见监控) 遥感...

  • 数据科学 IPython 笔记本 9.1 NumPy

    致谢:派生于 Olivier Grisel 分享的 scikit-learn 和 IPython 并行机器学习 译者:飞龙 协议:CC BY-NC-SA 4.0 NumPy 数组,dtype和形状 常见数组操作 原地修改形状和更新 合并数组 创建示例数据 import numpy ...

  • 数据科学 IPython 笔记本 8.1 matplotlib

    致谢:派生于 Olivier Grisel 的 sklearn 和 IPython 并行机器学习 设置全局参数 基本绘图 直方图 相同绘图上的两个直方图 散点图 %matplotlib inline import pandas as pd import numpy as np imp...

  • 计算机视觉数据集大全 - Part2

    转载自... Index by Topic Action Databases Agriculture Attribute recognition Autonomous Driving Biological/Medical Camera calibration Face and...

  • 计算机视觉数据集大全 - Part1

    转载自... Index by Topic Action Databases Agriculture Attribute recognition Autonomous Driving Biological/Medical Camera calibration Face and...

  • BelgaLogos数据集下载

    BelgaLogos数据集用于检测logo,包含37种不同的logo,共10000张图片。logo种类分别是 ['Adidas','Adidas-text','Airness','Base','BFGoodrich','Bik','Bouigues','Bridgestone','Bridgestone-text','Carglass','...

  • 数据集总结

    一般RGBD和深度数据集 一般视频 手,掌握,手动和手势数据库 图像,视频和形状数据库检索 对象数据库 人(静),人体姿势 人员检测和跟踪数据库(另见监控) 遥感 场景或地点分割或分...

  • python 数据分析库_一个Python的数据分析库

    # 一个Python的数据分析库Pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。Pandas是NumFOCUS赞助的项目。这将有助于确保Pandas成为世界级开源项目的成功,并有...

  • 常用公共数据集

    行动数据库属性识别自主驾驶生物/医药相机校准脸和眼/虹膜数据库指纹一般图像一般RGBD和深度数据集一般视频手,掌握,手动和手势数据库图像,视频和形状数据库检索 对象数据库人(静),人体姿势人员检测和跟踪...

  • 常用公共数据集----数据获取

    原文链接:http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm   CVonline:图像数据库 (Google直译的结果,希望对大家有帮助) 按主题索引 行动数据库 属性识别 自主驾驶 ... 脸和眼/虹膜数据...

  • Image数据集

    原文链接: ...一、行动数据库 20bn-Something-Something - 密集标记的视频剪辑,显示人类使用日常物品执行预定义的基本动作(Twenty Billion Neurons GmbH) 3D在线行动数据集 - 有七个行动类别(微软和南...

  • python数据分析设置教程视频_炼数成金女讲师Python数据分析实战应用视频教程

    教程名称:炼数成金女讲师Python数据分析实战应用视频教程教程目录:│ ├[Python2]《机器学习实战》及源代码.zip│ ├│ │ ├python10.pdf│ │ ├week10.py│ │ ├week10a.mp4│ │ ├week10b.mp4│ │ └week10...

  • 【数据挖掘比赛】之 Null Importances(特征选择)

    在olivier大佬的kernel上看到的https://www.kaggle.com/ogrellier/feature-selection-with-null-importances,思想也很纯粹,最近也用了好多次,效果还不错。 主要思想: 通过利用跑树模型得到特征的importance来...

  • 特征选择方法最全总结!

    上个月扫读完《阿里云天池大赛赛题解析》[1]后,看到书中对特征选择的讲述,于是便打算借此机会,系统梳理下各种特征选择方法。如有不足,还望指正。一、背景介绍在处理结构型数据时,特征工程中的特...

  • 中科院计算机研究所包云岗,专家人才库数据----中国科学院计算技术研究所

    Tianshi Chen, Qi Guo, Olivier Temam, Yue Wu, Yungang Bao, Zhiwei Xu, and Yunji Chen, Statistical Performance Comparisons of Computers, to appear in IEEE Transactions on Computers (IEEE TC), 2014....

Global site tag (gtag.js) - Google Analytics