资讯月刊下载
[互联网] 史上最大机器学习数据集,雅虎对外开放了
英文出处:yahoo labs 译文来自:伯乐在线 【导读】:数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。2016年1月14日,雅虎实验室对外发布了发布史上最大机器学习数据集,达 13.5 TB。 数据集主页:http://webscope.sandbox.yahoo.com/catalog.ph ...
[互联网] 最流行的六大数据模型工具
当今的商业决策对基于天的数据依赖越来越强烈。然而,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果。这个过程叫做数据建模。为了避免认为错误并且加快进度,我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。本文列出的工具都是从Data to Value公司咨询顾问处精挑 ...
[互联网] 深度学习:推动NLP领域发展的新引擎
文 / 雷欣,李理 从2015年ACL会议的论文可以看出,目前NLP最流行的方法还是机器学习尤其是深度学习,所以本文会从深度神经网络的角度分析目前NLP研究的热点和未来的发展方向。 我们主要关注Word Embedding、RNN/LSTM/CNN等主流的深度神经网络在NLP中的应用,这已经是目前主流的研究方向。此外,已经在机器学习或其它领域比较热门的方法,比如Multi-Model、Reaso ...
[互联网] 如何让神经网络把熊猫识别为秃鹫
本文作者基于论文阅读及实测,以尝试欺骗神经网络的方式,从工具安装到模型训练,逐步解析神经网络及其背后的数学原理。文章还提供了演示代码下载。 神奇的神经网络 当我打开Google Photos并从我的照片中搜索“skyline”时,它找到了我在八月拍摄的这张纽约地平线的照片,而我之前并未对它做过任何标记。 当我搜索‘cathedral’,Google的神经网络会找到我曾看到的大教堂和教堂。这 ...
[互联网] NIPS会议机器学习相关内容盘点
今年的NIPS会议是当下人工智能和深度学习热情的一个聚焦点 —— 从中能够感受到机器学习领域的飞速发展,并且公开了两家新的人工智能初创公司。参会人数相比2014年的大会几乎翻倍(希望明年主办方能设置多个分场),一些受欢迎的工作坊内摩肩接踵。由于大会有将近4000人参加却只接收400篇论文,大部分人还是冲着学习和社交的目的而来。会议期间紧张的社交活动让我想起了Burning Man(美国的一个反传统狂 ...
[互联网] 深度学习在自然语言处理的应用
【编者按】Jonathan Mugan写了两篇博文来解释计算机如何理解我们在社交媒体平台上使用的语言,以及能理解到何种程度。本文是其中的第二篇。 在深度学习出现之前,我们书写的文字所包含的意思是通过人为设计的符号和结构传达给计算机的。我在上一篇博文里详细阐述了这个实现过程。这里先回顾一下几种符号方法:WordNet、ConceptNet和FrameNet,通过对比来更好地理解深度学习的能力。然后我 ...
[互联网] 你应该知道的机器学习方法
决定何时以及如何在你的团队中使用AI技术是一项艰巨的任务。可选的技术比比皆是:据venturescanner.com网站显示,目前VCs给多达885家AI公司投资了将近90亿美元。而且这还并不包括大量已成立的供应商和创业型公司。信息如此之多,足以使你晕头转向,分析能力瘫痪。 但是,让我们来正视它吧——在这些所有的选择中,我们仍然可以比AI软件做出一个更好的选择。即使此技术已经非常先进,我们也可 ...
[互联网] 拓扑数据分析与机器学习的相互促进
【编者按】拓扑数据分析(TDA)和机器学习(ML)的区别与联系让不熟悉TDA的人扑朔迷离,本文通过两个定义,解释了TDA和ML的不同,以及TDA和ML如何相互促进,为何会相互促进,并通过一个设备故障分析的案例(5000个样本,复杂度适中,48个连续特征)来进行证明。 对拓扑数据分析(TDA)不熟悉的人,经常会问及一些类似的问题:“机器学习和TDA两者之间的区别?”,这种问题的确难以回答,部分原因在 ...
[互联网] Gartner 2015新兴技术发展周期简评:大数据实用化、机 ...
如今最新兴的技术是什么?来看看最新的Gartner 2015新兴技术发展周期报告。自动驾驶汽车与物联网处在顶峰部位,而大数据正失去它新兴技术的威望。Smart Dust将会成为未来十年的新酷技术。 Gartner是一家领先的市场和技术研究公司,在2015新兴技术发展周期中发表了关于新兴技术的报告。 图1:Gartner 2015新兴技术发展周期 下图是与2014年对照图 图2:Gar ...
[互联网] 人肉工程在机器学习实践中的作用
关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机器完成这个过程,本文试作一简单分析。 机器和人看待数据的区别 首先要看一下,从机器的角度看,机器学 ...
[互联网] 你应该掌握的七种回归技术
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序 ...
[互联网] Quora 是如何使用机器学习的?
Quora使用机器学习技术有段时间了。我们始终跟进最新的法,并对现有方法做出重大改进。很有必要提醒各位注意,所有这些改进都是首先在线下运用多种不同的离线测试法进行优化和测试,但最终都要通过在线 A/B 测试。 我将在本文说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术。 (伯乐在线注:本文作者 Xavier Amatriain 是 Quora 工程副总。) 排名 排名可 ...
[互联网] 开发者成功使用机器学习的十大诀窍
在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取价值,同时没有人类思考和分析的限制。对于开发者而言,机器学习为应用业务的关键分析提供了希望,从而实现从改善客户体验到提供产品推荐上升至超个性化内容服务的任何应用程序。 像Amazon和Micorosoft这样的云供应商提供云功能的机器学习解 ...
[企业架构] Netflix工程总监眼中的分类算法:深度学习优先级最低
【编者按】针对Quora上的一个老问题:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain近日给出新的解答,他根据奥卡姆剃刀原理依次推荐了逻辑回归、SVM、决策树集成和深度学习,并谈了他的不同认识。他并不推荐深度学习为通用的方法,这也侧面呼应了我们之前讨论的问题:深度学习能否取代其他机器学习算法。 不同分类算法的优势是什么?例如有大量的训练数据集,上万的实例,超过 ...
[编程语言] 量化分析师的Python日记【第1天:谁来给我讲讲Python ...
“谁来给我讲讲Python?” 作为无基础的初学者,只想先大概了解一下Python,随便编个小程序,并能看懂一般的程序,那些什么JAVA啊、C啊、继承啊、异常啊通通不懂怎么办,于是我找了很多资料,写成下面这篇日记,希望以完全初学者的角度入手来认识Python这个在量化领域日益重要的语言 一,熟悉基本 在正式介绍python之前,了解下面两个基本操作对后面的学习是有好处的: 1)基本的输入输出 ...
[企业架构] 几种监督式学习算法的比较
【编者按】本文的作者是计算机工程师Kevin Markham;热衷烹饪,痴迷戏剧,偶尔参加铁人三项运动;为 General Assembly 讲授为期11周的数据科学课程,在 SlideRule 指导学生学习数据科学,还是约翰·霍普金斯大学数据科学Coursera专项课程 的社区教学助理(CTA);业余时间制作 视频教程 参加 Kaggle 的比赛。日前他撰文谈及了几种监督式学习算法的比较,值得一看 ...
[数据库] Spark 1.3更新概述:176个贡献者,1000+ patches
近日,Databricks正式发布Spark 1.3版本。在此版本中,除下之前我们报道过的DataFrame API,此次升级还覆盖Streaming、ML、SQL等多个组件。当下,1.3版本已在 Apache Spark页面提供下载,下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括。 Spark SQL脱离Alpha版本 在1.3版本中 ...