阅读更多
英文出处:yahoo labs
译文来自:伯乐在线
【导读】:数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。2016年1月14日,雅虎实验室对外发布了发布史上最大机器学习数据集,达 13.5 TB。

数据集主页:http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75。下面是对雅虎实验室官博文章的翻译。

数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。

雅虎实验室的科学家们长期浸淫于面向顾客产品的大规模机器学习问题研究。这使得我们在诸如搜索排名、计算广告、信息检索以及核机器学习等领域进行深入思考。对外部研究团体来说,外部研究团体的兴趣一个关键方面是新算法和方法的应用,对产品买卖和从真实产品收集的大规模数据集。

今天,我们骄傲地宣布向研究团体公开发布史上最大机器学习数据集。该数据集存有海量信息,记录了2015年2月至5月间2千万用户约1100 亿个事件(13.5TB 未压缩)的新闻项目交互数据。

「雅虎新闻种子数据集」是一个基于若干雅虎产品匿名用户交互新闻种子样本,包括雅虎主页、雅虎新闻、雅虎体育、雅虎财经、雅虎电影和雅虎房产。



雅虎主页上的新闻种子

我们的目标是促进大规模机器学习和推荐系统领域的独立研究,为业界和学术研究领域提供帮助平台。数据集作为雅虎 Labs Webscope数据共享计划的组成部分,该计划是由非商用匿名用户数据组成的科学实用数据集的引用库。

除了交互数据,我们还提供匿名用户的分类人口统计信息(年龄段、性别和泛地理数据)子集。在项目方面,我们发布标题、评论和相关新闻文章的关键词组。交互数据标记当地时间信息,并且包含用户访问新闻种子设备的部分信息,新闻种子容许上下文推荐和文本数据挖掘等吸睛业务。

雅虎实验室的个性化科学团队在全维度雅虎新闻种子数据集有许多有趣的作为,这点化了在行为模型、推荐系统、大尺度和分布式机器学习、排名、在线算法、内容建模以及时序挖掘等领域的一些引人注目的思想(例如《鸟类、应用程序和用户:可变尺度因式分解机和科学驱动产品和个性化:超越点击》)。

我们希望发布这个数据能启迪研究者、数据科学家以及机器学习界的发烧友,并用扩展的“真实世界”数据集帮助他们验证模型。我们坚信该数据集能成为大尺度机器学习和推荐系统的标杆,期盼来自我们数据应用团体的佳音。

2016年(大规模)机器学习快乐!
关于我们处理用户隐私的说明:我们的用户每时每刻都置信于我们,我们努力赢得这份信任。我们积极地保护用户隐私,负责任地、透明地使用和保护用户个人信息。因此,作为该计划的一部分,我们业已将发布的数据集匿名化。
  • 大小: 367.5 KB
来自: 伯乐在线
1
0
评论 共 2 条 请登录后发表评论
2 楼 netkiller.github.com 2016-02-02 08:41
一没落的公司,死前回光返照吗? 估计现在就靠阿里的股份支撑着。
1 楼 lyfight 2016-02-01 21:58

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • java JDK1.6 API中文帮助文档、机器学习资料网址、SQL语句学习资料J

    1、机器学习资料:史上最大机器学习数据集,雅虎对外开放了 网址:http://mp.weixin.qq.com/s?__biz=MjM5OTA1MDUyMA==&mid=405724351&idx=2&sn=4f8477c52b2c6a201a66123326d0bb2d&scene=0#rd  2、SQL学习资料...

  • Spark吐血整理,学习与面试收藏这篇就够了!

    Spark VS Hadoop Hadoop Spark 类型 分布式基础平台, 包含计算, 存储, 调度 分布式计算工具 场景 大规模数据集上的批处理 迭代计算, 交互式计算, 流计算 价格 对机器要求低, 便宜 对内存有要求, 相对较贵 编程范式 ...

  • 数据分析侠A的成长故事

    数据分析侠A的成长故事面包君 同学A:22岁,男,大四准备实习,计算机专业,迷茫期作为一个很普通的即将迈入职场的他来说,看到周边的同学都找了技术开发的岗位,顿觉自己很迷茫,因为自己不是那么喜欢钻研写代码,...

  • 12万字 | 2021数据安全与个人信息保护技术白皮书(附下载)

    伴随而来的数据安全风险与日俱增,数据泄露、数据滥用等安全事件频发,为个人隐私、企业商业秘密、国家重要数据等带来了严重的安全隐患。近年来,国家对数据安全与个人信息保护进行了前瞻性战略部署,开展了系统性的...

  • 大规模数据处理的演化历程(2003-2018)

    本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。 大数据如果从 Google 对外发布 MapReduce 论文算...

  • 阿里巴巴,果然开始拥有“预测未来“的能力了

    文 | 史中 顶灯闪烁,笛声响彻。 救护车载着病人,冲向茫茫车海,在时间的赛道上狂奔。 高德地图、GPS 卫星导航、路面磁感线圈、1300 个路口摄像头同时开动,为这辆救护车勘探最快路线; GPS 传回实时数据,后台根据...

  • 转折点:移动互联网时代的商业法则

    149 关于学习 153 找乐 157 给大学刚毕业的同学们 160 招聘者是如何筛选简历的 163 《旧制度与大革命》读书笔记 165 不确定世界的生存——《反脆弱》读后感 171 2013 年许维读过的10 本好书 ...

  • 深度好文丨读完此文,就知道Hadoop了!

    预测性数据分析:主要是机器学习类任务,例如逻辑回归等,关注计算模型的先进性和计算能力,实现组件有Spark、MapReduce等; 数据处理及转化:主要是ETL类任务,例如数据管道等,关注IO吞吐率和可靠性,实现组件有...

  • Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    预测性数据分析:主要是机器学习类任务,例如逻辑回归等,关注计算模型的先进性和计算能力,实现组件有Spark、MapReduce等; 数据处理及转化:主要是ETL类任务,例如数据管道等,关注IO吞吐率和可靠性,实现组件有...

  • hadoop的历史

    abstract: 本学期正在学习大数据专题,课堂上老师并没有刻意去讲Hadoop的历史,于是我从网上找了很多资料,来帮助自己了解Hadoop的历史,以增加理解。 本学期正在学习大数据专题,课堂上老师并没有刻意去讲Hadoop的...

  • 大数据的缘起、发展和未来构思

    第二个是spark的产生,基于弹性分布式数据集的一站式内存计算框架(支持批处理、准实时处理、机器学习、图计算)等,面对大规模的数据计算场景,如果早期MapReduce是为了解决海量数据可以被计算的问题,那么spark在...

  • hadoop知识点总结

    HDFS是一个具有高容错性的文件系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。大数据处理框架如MapReduce、Spark等要处理的数据源大部分都存储在HDFS上,Hive、HBase...

  • 大数据技术原理与应用第2版-林子雨版-课后习题答案

    1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮 发生时间 标志 解决问题 代表公司 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995...

  • 大数据凉了?不,流式计算浪潮才刚刚开始

    本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。更多干货内容请关注微信公众号“AI 前线”(ID:ai....

  • hadoop、spark各大数据组件介绍

    hadoop相关组件 hadoop体系结构,如图: ...是Hadoop应用程序中主要的分布式存储系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNo...

  • Hadoop 十年解读与发展预测(插图+排版)

    文章目录Hadoop 编年史技术篇存储层管控层计算引擎层服务层算法及机器学习产业篇应用篇IT 优化业务优化为什么 Hadoop 如此成功?下一代分析平台下一个十年后记参考资料个人简介 摘自 ...

  • Hadoop十年解读与发展预测

    Hadoop十年解读与发展预测 ... ...编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受

  • 大数据技术原理与应用答案 林子雨 第二版

    1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮 发生时间 标志 解决问题 代表公司 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995...

  • 人力资源经理绩效考核表.xls

    人力资源经理绩效考核表

  • 智慧环卫管理平台建设方案Word(211页).docx

    一、智慧环卫管理平台的建设背景与目标 智慧环卫管理平台的建设源于对环卫管理全面升级的需求。当前,城管局已拥有139辆配备车载GPS系统、摄像头和油耗传感器的环卫车辆,但环卫人员尚未配备智能移动终端,公厕也缺乏信息化系统和智能终端设备。为了提升环卫作业效率、实现精细化管理并节省开支,智慧环卫管理平台应运而生。该平台旨在通过信息化技术和软硬件设备,如车载智能终端和环卫手机App,实时了解环卫人员、车辆的工作状态、信息和历史记录,使环卫作业管理透明化、精细化。同时,平台还期望通过数据模型搭建和数据研读,实现更合理的环卫动态资源配置,为环卫工作的科学、健康、持续发展提供决策支持。 二、智慧环卫管理平台的建设内容与功能 智慧环卫管理平台的建设内容包括运行机制体制建设、业务流程设计、智慧公厕系统建设、网络建设、主机和储存平台需求、平台运维管理体系、硬件标准规范体系以及考核评价体系等多个方面。其中,智慧公厕系统建设尤为关键,它能实时监控公厕运行状态,保障公厕的清洁和正常运行。平台建设还充分利用了现有的电子政务网络资源,并考虑了有线和无线网络的需求。在功能上,平台通过普查、整合等手段全面收集环卫车辆、企业、人员、设施、设备等数据,建立智慧环卫基础数据库。利用智能传感、卫星定位等技术实现环卫作业的在线监管和远程监控,实现对道路、公共场所等的作业状况和卫生状况的全面监管。此外,平台还建立了环卫作业网格化管理责任机制,实现从作业过程到结果的全面监管,科学评价区域、部门、单位和人员的作业效果。 三、智慧环卫管理平台的效益与风险规避 智慧环卫管理平台的建设将带来显著的环境、经济和管理效益。环境方面,它将有力推进环境卫生监管服务工作,改善环境卫生状况,为人民群众创造更加清洁、卫生的工作和生活环境。经济方面,通过智慧化监管,大大降低了传统管理手段的成本,提高了监管的准确性和效率。管理方面,平台能够追踪溯源市民反映的问题,如公厕异味、渣土车辆抛洒等,并找到相应的责任单位进行处置,防止类似事件再次发生。同时,平台还拥有强大的预警机制功能,能够在很多环卫问题尚未出现前进行处置。然而,平台建设也面临一定的风险,如部门协调、配合问题,建设单位选择风险以及不可预测的自然灾害等。为了规避这些风险,需要加强领导、统一思想,选择优秀的系统集成商承接项目建设,并做好计算机和应用系统的培训工作。同时,也要注意标准制定工作和相关法律法规的制定工作,以保证系统建设完成后能够真正为环卫管理工作带来便利。

Global site tag (gtag.js) - Google Analytics