资讯月刊下载
[数据库] 链家网大数据平台枢纽——工具链
引用声明:本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》。 作者:吕毅,链家网平台架构师。目前负责链家网大数据平台,之前曾负责链家网基础服务平台建设。 责编:郭芮,关注大数据领域,寻求报道或投稿请联系guorui@csdn.net。 链家网于2015年成立大数据部门,开始构建基于Hadoop的技术体系,初期大数据部门以运营数据报表需求、公司核心指标需求为主。随着2 ...
[数据库] Apache Spark:大数据处理统一引擎
工业和研究中数据的大幅增长为计算机科学带来了巨大的机会与挑战。由于数据大小超过了单台机器的能力,用户需要新的系统将计算扩展到多个节点。因此,针对不同计算工作负载的新集群编程模型已呈爆炸式增长。 这些模型相对专业化。例如支持批处理的MapReduce,支持迭代图算法的Dreme。在开源Apache Hadoop堆栈中,类似Storm和Impala的系统也是特有的。即使在关系数据库世界中,“一刀切 ...
[行业应用] IBM 专业的统计分析平台SPSS Statistics 24.0新功能介 ...
在前两周的文章 “IBM SPSS Modeler 18.0新版本强劲推出”中,提到IBM 数据挖掘平台SPSS Modeler最新版本于2016年3月15日推出,当天同时推出的还有SPSS家族中最元老级的产品------IBM SPSS Statistics 最新版本 24.0, 它是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) ...
[开源软件] 盘点最受欢迎的十个开源大数据技术
引用 原文:Top 10 Big Data Technologies to Start Adopting Today! 作者:Tim Spann 翻译:王嘉怡 责编:仲培艺 大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。 1.Hadoop——高效、可靠、可 ...
[互联网] IEEE Spectrum 编程语言最新排行:大数据是赢家
一年一度的IEEE Spectrum编程语言排行盛宴又来了,来看看今年7月26日发布的前十名榜单。这个排行榜已经进行了三年。IEEE Spectrum的排序是来自10个重要数据源的综合,例如 IEEE Xplore, GitHub, CareerBuilder 等等,他们根据数据源对48种语言给出不同角度的排列。调整不同的权重,可以得到不同的排序结果。用户甚至可以根据自己的情况,调整权重,得到相应的 ...
[互联网] 以假乱真,MIT基于深度学习的新算法给视频配音
引用原文:MIT’s New AI Can (Sort of) Fool Humans With Sound Effects 译者:刘翔宇 审校:刘帝伟 责编:周建丁(zhoujd@csdn.net) 神经网络已经在玩游戏方面超过了我们,并且也应用于智能手机照片的管理以及邮件回复方面。此外,它们还能在好莱坞谋得一职。 在MIT的计算机科学和人工智能实验室(CSAIL),一个由6位研究人员组成 ...
[互联网] Uber在大数据运用上的惊人表现
Uber是一款提供出租车预订服务的智能手机应用,为需要搭车的用户和想要载客的司机搭建了沟通渠道。这项服务引起了很大争议,一方面普通的出租车司机抱怨Uber毁掉了他们的生计,另一方面民众担心Uber的司机缺乏监管。 但这些争议并没能阻止Uber取得巨大的成功:2009年发布时仅覆盖旧金山一地,到了现在,除了南极洲之外,已覆盖所有大陆的许多主要城市。 这家公司深深地扎根于大数据,对数据的运用远比 ...
[企业架构] 从日志统计到大数据分析
引用 作者:桑文锋,神策数据创始人&CEO,前百度大数据部技术经理。2007年浙大研究生毕业后加入百度,从2008年开始从事数据方向,从零构建了百度的用户日志大数据处理平台。2015年4月从百度离职,创建神策数据,帮助客户实现数据驱动。目前,面向互联网创业公司的产品神策分析的客户包括爱鲜蜂、多盟、AcFun、秒拍等。 2008年底,我开始在百度负责一个日志统计的小团队,开发了一套基于Had ...
[数据库] 实现具历史意义的技术一跃 刘睿民:中国正成为数据库 ...
工业和信息化部电子工业标准化研究院网站4月6日发布消息称,中国首项大数据领域国际标准提案新近通过专家论证,并认为这代表着中国大数据领域国际标准化工作取得重大突破,提升了中国在数据库语言领域的标准话语权。 由该院联合北京柏睿数据科技有限公司提出的《SQL对MapReduce及与之相关的流数据处理的支持》国际标准提案,也被认为是由中国独立提出的首项针对SQL标准的国际标准提案,目的在于扩展数据库语 ...
[数据库] mmTrix大数据分析平台构建实录
在数据分析中,有超过90%数据都是来自于非结构化数据,其中大部分的是日志,如运维、安全审计、用户访问数据以及业务数据等,但随着互联网快速的发展,数据规模也是水涨船高,从早前的GB级到现在的TB级,甚至PB级也只是短短几年光景。而移动互联网的时代到来,可以说每个人无时无刻不在产生数据,几乎成爆发式的增长。 如此多的数据早已压榨完单机的性能,在性价比的驱使下,转向分布式也是多数互联网企业早就未雨绸缪的 ...
[数据库] 将数据成功迁移到云端的三个技巧
使用云端来存储企业的数据将大大提高可用空间,但前提是数据迁移要做好。如果公司打算将数据迁移到云端,你就要开始从长远考虑如何用正确的方式操作了。 现在,用云服务提供商来存储大量数据是云服务的主要引用。近年来,企业的数据在疯狂地增长,给ITunes行业的增长带来了70%的贡献。使用云服务将会大大降低企业的开支。 但是很多企业低估了迁移数据需要的工作,也低估了之前需要做的准备工作。常常会失败很多次。如 ...
[数据库] 2016年大数据在金融领域的10大趋势
2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进。现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言,他们面前的路依旧漫长。 银行家们也正在起草大数据战略,制定入门和随后的用例。 对于银行来说,大数据主要还是围绕提高客户情商,减少风险,符合监管。在可见的未来处于第一梯队的大型金融集团都会继续围 ...
[开源软件] 优秀大数据GitHub项目一览
VMware CEO Pat Gelsinger曾说: 引用数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。 下面我们尽量列出了一些流行的开源大数据项目。根据它们各自的授权 ...
[互联网] 使用Spark进行微服务的实时性能分析
【编者按】当开发者从微服务架构获得敏捷时,观测整个系统的运行情况成为最大的痛点。在本文,IBM Research展示了如何用Spark对微服务性能进行分析和统计,由OneAPM工程师翻译。 以下为译文 作为一种灵活性极强的构架风格,时下微服务在各种开发项目中日益普及。在这种架构中,应用程序被按照功能分解成一组松耦合的服务,它们通过REST APIs相互协作。通过这个设计原则,开发团队可以快速地不 ...
[互联网] 深度学习在自然语言处理的应用
【编者按】Jonathan Mugan写了两篇博文来解释计算机如何理解我们在社交媒体平台上使用的语言,以及能理解到何种程度。本文是其中的第二篇。 在深度学习出现之前,我们书写的文字所包含的意思是通过人为设计的符号和结构传达给计算机的。我在上一篇博文里详细阐述了这个实现过程。这里先回顾一下几种符号方法:WordNet、ConceptNet和FrameNet,通过对比来更好地理解深度学习的能力。然后我 ...
[互联网] 运用Spark加速实时数据分析
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。 在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其 ...
[互联网] 深度学习和拓扑数据分析的六大惊人之举
假如你有一个一千列和一百万行的数据集。无论你从哪个角度看它——小型,中型或大型的数据——你不可能看到它的全貌。将它放大或缩小。使它能够在一个屏幕里显示完全。由于人的本质,如果能够看到事物的全局的话,我们就会有更好的理解。有没有办法把数据都放到一张图里,让你可以像观察地图一样观察数据呢? 将深度学习与拓扑数据分析结合在一起完全能够达到此目的,并且还绰绰有余。 1、它能在几分钟内创建一张数据图,其中每 ...
[开源软件] 2015 Bossie评选:最佳的10款开源大数据工具
Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。 InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。 ...