阅读更多
Yahoo今天开源了数据快速高效计算算法,基于Java的Data Sketches算法。 Data Sketches遵循Apache开源授权协议提供在 GitHub:https://github.com/datasketches/sketches-core/
这类型的技术在研究者的学术论文中出现的越来越多,总是使用不同的名字,但都会分享一些关键的技术点。首先就是可以处理流数据,因为这些数据他们只接触一次。他们是可附加的,你可以添加或者合并这些计算。更有趣的是,他们都是近似的。

雅虎方面发表声明说,这整个科学计算是基于很基础的功能,只要你能忍受结果有一点点偏差,那么完全可以大幅度提升计算的速度。

想象如果你想计算一些东西,比如一天中既访问雅虎财经又访问雅虎体育的人数。如果你尝试计算到底有多少人访问,是可以得到答案的 —— 只要你有充足的硬盘空间,内存和时间。这是非常困难的,Yahoo 很自然的就想优化这类型的计算。

除了高速计数之外,Data Sketches 做某些类型的计算会比精确计算快很多。1亿数值计算一般情况花费 2.5 分钟,而使用 Data Sketches 只需要 2.7 秒。

Data Sketches 已经在 Yahoo 的大量产品中使用,Yahoo 自身的 Flurry 使用它来计算实时计数,雅虎邮件服务和搜索引擎也在使用。

Data Sketches 集成了 Hive 和 Pig,还有 Druid 开源数据存储,在 Maven 构建管理工具中也很容易使用。

Data Sketches 文档提供在这里,更多内容请看Yahoo engineering Tumblr page

via venturebeat.com
译文来自:oschina
来自: 开源中国
0
0
评论 共 1 条 请登录后发表评论
1 楼 田梦桦 2015-12-19 16:17
英文是硬伤,算法也是硬伤,看着好累

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 雅虎开源的快速计算算法 Data Sketches.zip

    Data Sketches 是雅虎开源的超快速计算算法。除了高速计数之外,Data Sketches 做某些类型的计算会比精确计算快很多。1亿数值计算一般情况花费 2.5 分钟,而使用 Data Sketches 只需要 2.7 秒。 Data Sketches 已经...

  • java快速运算_Yahoo 开源 Java 超快速计算算法 Data Sketches

    Yahoo 今天开源了数据快速高效计算算法,基于 Java 的 Data Sketches 算法。 Data Sketches 遵循 Apache 开源授权协议提供在 GitHub:https://github.com/datasketches/sketches-core/。这类型的技术在研究者的学术...

  • 大规模实时分位数计算——Quantile Sketches 简史

    DataSketches[1] 就是为了解决大数据和实时场景下的这几类典型问题而诞生的一组算法,最初由雅虎开源。这些算法以牺牲查询结果的精确性为代价,可以在极小的空间内并行、快速地解决上述几类问题。 Sketch 结构的...

  • 雅虎开源可以提升流操作速度的DataSketches

    就像在Venture Beat上所宣布的那样,雅虎开源了DataSketches,这是一个用Java编写的随机流算法库。DataSketches允许进行通常来说开销很大的操作,像计算变量不同的值在流中出现的次数,而且消耗的时间少,占用的内存...

  • DataSketches Research Directions 流数据相关研究

    DataSketches Research ... 来源与雅虎的开源项目,翻译by Titanssword 结合自己研究方向,可合并摘要,分位数, k 均值聚类的流式算法, 有关图流处理算法, 有关滑动窗口流算法 Introduction 在分析海量数据

  • 大数据系列之(一) Streaming模式基础知识

    因此,低延迟就是低延迟(译者:延迟是指从系统收到消息,到完成整个消息计算的时间差),近似结果就是近似结果(译者:很多计算开销很大,近似结果用很少的开销就能提供可控的精度的正确性,比如yahoo最近开源的 ...

  • 大数据流处理引擎和框架大全

    大数据流处理框架,应用程序和其他资源的精选列表。 目录 流处理引擎 流处理库 ...Apache Flink [Java]-用于高吞吐量,低延迟的数据流处理的系统,支持状态计算,数据驱动的窗口语义和迭代流处理。 Apa

  • Scott Hanselman的Windows 2009最终开发者和高级用户工具列表

    这是一个很小的,速度惊人的免费的Windows开源实用程序。 它使您能够自动执行从击键到鼠标的所有操作。 非程序员编程。 它是Windows的完整自动化系统,而没有VBScript的挫败感。 这与Windows的AppleScript等效。 ...

  • Scott Hanselman的Windows 2011最终开发者和高级用户工具列表

    这是一个很小的,速度惊人的免费的Windows开源实用程序。 它使您能够自动执行从击键到鼠标的所有操作。 非程序员编程。 它是Windows的完整自动化系统,而没有VBScript的挫败感。 这与Windows的AppleScript等效。 ...

  • 下载的资源,下载后解压

    python->exe

  • 前段web开发实战-哪吒2哪吒闹海网站(超酷哪吒主题网页,HTML+CSS 带你畅游)

    宝子们,快来看看这个超炫的哪吒主题网页!用 HTML 和 CSS 精心打造,有酷炫的头部导航、精彩的横幅内容,还有各种哪吒相关人物介绍和超燃票房海报。代码简单易懂,非常适合前端小白学习,一起动手搭建属于自己的哪吒世界吧!

  • Java毕业设计-SpringBoot+Vue的家乡特色推荐系统(附源码、数据库、教程).zip

    Java 项目, Java 毕业设计,Java 课程设计,基于 SpringBoot 开发的,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行! 1. 技术组成 前端:html、javascript、Vue 后台框架:SpringBoot 开发环境:idea 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库工具:navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本), maven 2. 部署 如果部署有疑问的话,可以找我咨询 Java工具包下载地址: https://pan.quark.cn/s/eb24351ebac4 后台路径地址:localhost:8080/项目名称/admin/dist/index.html 前台路径地址:localhost:8080/项目名称/front/index.html (无前台不需要输入)

  • 2023年专升本计算机复习题.pdf

    2023年专升本计算机复习题.pdf

  • 基于SSM+JSP的班级同学录网站+数据库(Java毕业设计,包括源码,教程).zip

    Java 项目, Java 毕业设计,Java 课程设计,基于 SpringBoot 开发的,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行! 1. 技术组成 前端:jsp 后台框架:SSM 开发环境:idea 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库工具:navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本), maven 2. 部署 如果部署有疑问的话,可以找我咨询 Java工具包下载地址: https://pan.quark.cn/s/eb24351ebac4

  • 【工程项目】MATLAB虫害监测(带识别率).zip

    【工程项目】MATLAB虫害监测(带识别率)

  • 金刚石化学机械抛光(CMP)中层状双氢氧化物催化作用研究及应用

    内容概要:本文详细研究了金刚石(Single Crystal Diamond, SCD)化学机械抛光(CMP)过程中,抛光浆料的组成成分对其表面质量的影响。通过对浆料的化学成分(氧化剂种类及浓度、催化剂种类)及机械因素(磨料粒径)进行系统性探索,研究揭示了氧化剂、磨料和催化剂之间复杂的相互作用关系。重点介绍了层状双氢氧化物(Layered Double Hydroxides, LDH)的应用和芬顿反应机理,探讨其对提高抛光效果的独特贡献,特别是表面粗糙度和质量的提升。实验中通过一系列对照测试比较不同浆料配置对抛光结果的不同影响,得出了具体的最优配置参数,实现了Ra约为0.109 nm的原子级平整表面。 适合人群:从事CMP工艺研究的专业人士、材料科学及物理学相关背景研究人员和技术人员、关注高端材料制备与处理的企业研发人员。 使用场景及目标:适用于需要深入了解CMP技术细节及应用的科学研究项目;针对希望提升超硬材料如金刚石表面加工品质的实际工业生产环境。本研究所建立的最佳浆料配比及相应抛光参数对实现高效能CMP处理流程有着重要的指导意义,尤其有助于优化半导体器件制造和其他高精度要求的技术

  • 基于JAVA的机场航班起降与协调管理系统&毕业设计&毕业论文&数据库&演示视频&源代码

    本次项目是设计一个基于JAVA的机场航班起降与协调管理系统。 (1)在经济可行性上来分析的话,该软件是机场内部使用的一个指挥协调软件,属于航空安全投资,本软件开发成本并不高,软件和服务器数据库可以用机场原有的数据库进行开发,比起空难给航空公司造成的损失来说九牛一毛。 (2)在技术可行性上来分析的话,该软件主要运用了Java技术、jQuery-easyui和Mysql数据库技术。Java是到目前来说最稳定的、最可靠的软件开发工具;jQuery-easyui虽然是比较新的前台开发技术,但是他的界面新颖整洁,适合于功能性软件的开发;Mysql数据库也是许多大公司都采用的软件项目开发数据库,不仅稳定而且性能可靠,可以用作本次软件的开发。 (3)在法律可行性上来分析的话,该软件使用的技术都为开源的软件开发工具和语言,虽然Java等开发技术都存在Sun公司的版权问题,但是Java技术是可以免费使用的,没有涉及到法律上的侵权。 (4)在方案可行性上来分析的话,此次软件开发的很大一部分精力都放在了软件的需求分析和设计方面,设计出来的软件可以很好地去实现我们所要完成的软件预先设计的功能。

  • 2023年计算机组成与系统结构实验报告.pdf

    2023年计算机组成与系统结构实验报告.pdf

  • 基于Springboot的漫画网站--论文.zip

    Java项目基于springboot的课程设计,包含源码+数据库+毕业论文

  • Java毕业设计-SpringBoot+Vue的准妈妈孕期交流平台(附源码,数据库).zip

    Java 项目, Java 毕业设计,Java 课程设计,基于 SpringBoot 开发的,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行! 1. 技术组成 前端:html、javascript、Vue 后台框架:SpringBoot 开发环境:idea 数据库:MySql(建议用 5.7 版本,8.0 有时候会有坑) 数据库工具:navicat 部署环境:Tomcat(建议用 7.x 或者 8.x 版本), maven 2. 部署 如果部署有疑问的话,可以找我咨询 Java工具包下载地址: https://pan.quark.cn/s/eb24351ebac4 后台路径地址:localhost:8080/项目名称/admin/dist/index.html 前台路径地址:localhost:8080/项目名称/front/index.html (无前台不需要输入)

Global site tag (gtag.js) - Google Analytics