资讯月刊下载
[企业架构]
25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。 2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分类 ...
[开源软件]
Yahoo 开源 Java 超快速计算算法 Data Sketches
Yahoo今天开源了数据快速高效计算算法,基于Java的Data Sketches算法。 Data Sketches遵循Apache开源授权协议提供在 GitHub:https://github.com/datasketches/sketches-core/。 这类型的技术在研究者的学术论文中出现的越来越多,总是使用不同的名字,但都会分享一些关键的技术点。首先就是可以处理流数据,因为这些数据他们只接 ...
[企业架构]
从3张图了解Pinterest Feed算法与架构设计
Pinterest首页的Feed消息流,最早是按照用户的关注对象的Pin(Pin类似微博)聚合后按时间进行排序(自然序,类似朋友圈),后来版本的feed系统放弃了自然序,而是根据一定规则及算法来设计,内部称之为Smart feed,其算法及架构根据其公开资料整理如下,值得业界做信息流产品的技术架构师参考。 Pinterest每个用户的首页feed都是个性化内容。Pinterest系统大约1/3流量 ...
[互联网]
十大算法,让你轻松进阶高手
算法一:快速排序算法 快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。 快速排序使用分治法(Divide and conquer)策略来把一个串 ...
[互联网]
人人都该懂点儿TCP
作者:Julia Evans 原文链接:Why you should understand (a little) about TCP 即使你的工作也许不需要对TCP了如指掌,也不需要去了解具体的TCP/IP实例。你也应该懂一些基本的TCP知识,本文会告诉你为什么。 我以前在Recurse Center工作的时候,曾经用Python写过一个TCP栈(还写了一篇博文用Python实现TCP栈可以学到什 ...
[互联网]
你应该知道的机器学习方法
决定何时以及如何在你的团队中使用AI技术是一项艰巨的任务。可选的技术比比皆是:据venturescanner.com网站显示,目前VCs给多达885家AI公司投资了将近90亿美元。而且这还并不包括大量已成立的供应商和创业型公司。信息如此之多,足以使你晕头转向,分析能力瘫痪。 但是,让我们来正视它吧——在这些所有的选择中,我们仍然可以比AI软件做出一个更好的选择。即使此技术已经非常先进,我们也可 ...
[数据库]
【访谈】数据大师Olivier Grisel给志向高远的数据科学 ...
Olivier Grisel(OG)本人在Inria Parietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机器学习、文本挖掘和自然语言处理领域的专家。大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听。 在上一篇博文里(CSDN译文:[访谈] Olivier Grisel谈s ...
[互联网]
拓扑数据分析与机器学习的相互促进
【编者按】拓扑数据分析(TDA)和机器学习(ML)的区别与联系让不熟悉TDA的人扑朔迷离,本文通过两个定义,解释了TDA和ML的不同,以及TDA和ML如何相互促进,为何会相互促进,并通过一个设备故障分析的案例(5000个样本,复杂度适中,48个连续特征)来进行证明。 对拓扑数据分析(TDA)不熟悉的人,经常会问及一些类似的问题:“机器学习和TDA两者之间的区别?”,这种问题的确难以回答,部分原因在 ...
[互联网]
Dropbox工程师开发出无损压缩算法“Pied Piper”
Dropbox工程师正致力于将世界建设得更美好:他们开发出受HBO喜剧片《硅谷》启发的无损压缩算法“Pied Piper”。 引用在Dropbox今年的Hack Week上,Daniel Reiter Horn和他的团队开发了无损压缩JPEG图像和H.264 视频的算法,压缩率分别达到22%和13%。算法源代码已在BSD许可证下发布在Github上。Horn指出,今天几乎所有的JPEG文件都使用 D ...
[互联网]
人肉工程在机器学习实践中的作用
关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机器完成这个过程,本文试作一简单分析。 机器和人看待数据的区别 首先要看一下,从机器的角度看,机器学 ...
[企业架构]
架构设计中的6种常见安全误区
自然世界中,先天有缺陷的生物总是容易被细菌病毒入侵,而健壮的生物更能抵抗细菌病毒的攻击,计算机系统也是一样,若有先天的架构设计安全缺陷,那么在面临网络攻击的时候,就更容易被入侵或者破坏,甚至因为设计架构的原因,有些漏洞完全没有办法修复!本文将讲述架构设计中需要避免出现的安全误区,以帮助我们研发人员设计出更安全健壮的软件架构。本文的举例既有硬件架构,也有软件架构,还有基础架构等等不同的架构,但其中原理 ...
[编程语言]
教你用200行Python代码“换脸”
介绍 本文将介绍如何编写一个只有200行的Python脚本,为两张肖像照上人物的“换脸”。 这个过程可分为四步: •检测面部标记。 •旋转、缩放和转换第二张图像,使之与第一张图像相适应。 •调整第二张图像的色彩平衡,使之与第一个相匹配。 •把第二张图像的特性混合在第一张图像中。 完整的源代码可以从这里下载: https://github.com/matthewearl/faceswap/ ...
[互联网]
Google的算法出过哪些囧事?
我们觉得这里头有些玩笑是Google故意做的。 众所周知,Google的支柱业务———在线广告一直有通过算法,把用户进行区分对待,让不同的人看到不同类型的广告。 为了解不同的人所能看到的Google广告有什么区别,卡耐基梅隆大学和国际计算机科学协会(ICSI)展开了一项研究。通过他们开发的名为Adfisher的程序,系统模拟出了大量虚拟的男性和女性身份,并让他们访问一些招聘网站。结果发现在之后 ...
[互联网]
开发者成功使用机器学习的十大诀窍
在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取价值,同时没有人类思考和分析的限制。对于开发者而言,机器学习为应用业务的关键分析提供了希望,从而实现从改善客户体验到提供产品推荐上升至超个性化内容服务的任何应用程序。 像Amazon和Micorosoft这样的云供应商提供云功能的机器学习解 ...
[互联网]
基于OpenCV的裸体检测
AI(人工智能)被用来处理一些奇怪的任务。算法网站Algorithmia搞出了一个“裸体检测器”, 当然这不是能通过图灵测试的超级AI,也不是《终结者》中“天网”级别的机器人。 据称,原理如下: 首先,利用OpenCV的人脸检测器及鼻子检测器,去检测鼻子。 然后,从鼻子处采样,得到肤色的样本。 最后,对全图进行检测,与鼻子处颜色相近的,都认为是肤色。 如果肤色占比高于一定值,则会认为,图片是裸体。 ...
[数据库]
NoSQL数据库的分布式算法
系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐,什么都能塞进去。尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革,但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。正是通过这些尝试逐渐总结出了一些行之有效的数据库构建方法。在这篇文章里,我将针对NoSQL数据库的分布式特点进行一些系 ...
[编程语言]
Spark 1.4:SparkR发布,钨丝计划锋芒初露
6月11日(美国时间),Spark 1.4版本正式发布,在Spark Core、Spark Streaming、Spark SQL(DataFrame)、Spark ML/MLlib等升级之外,新版本更加入了数据科学家们望眼欲穿的SparkR组件。长话短说,下面一起看Databricks Blog上关于SparkR的介绍,以及七牛技术总监陈超在ChinaScala微信号上对组件升级的总结。 项目历 ...
[企业架构]
Netflix工程总监眼中的分类算法:深度学习优先级最低
【编者按】针对Quora上的一个老问题:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain近日给出新的解答,他根据奥卡姆剃刀原理依次推荐了逻辑回归、SVM、决策树集成和深度学习,并谈了他的不同认识。他并不推荐深度学习为通用的方法,这也侧面呼应了我们之前讨论的问题:深度学习能否取代其他机器学习算法。 不同分类算法的优势是什么?例如有大量的训练数据集,上万的实例,超过 ...