资讯月刊下载
[数据库] 重磅出击 MongoDB 3.0 正式版即将发布
MongoDB 今天宣布3.0正式版本即将发布。这标志着 MongoDB 数据库进入了一个全新的发展阶段,提供强大、灵活而且易于管理的数据库管理系统。 MongoDB 3.0 在性能和伸缩性方面都有非常巨大的提升,通过在存储层的大幅改进实现。内建 WiredTiger 存储引擎,这是一项难以置信的技术实现,提供无门闩、非堵塞算法来利用先进的硬件平台(如大容量芯片缓存和线程化架构)来提升性能。通过 ...
[互联网] 为什么现实世界是大数据的下一个重大契机
Matt Ocko是风投公司Data Collective的全权合伙人,曾在Uber公司2011年第二轮融资活动中参与投资。他还是Facebook的早期投资人。在2012年与正式启动Data Collective风险投资之前,Matt Ocko已经针对数据库公司进行了若干年的投资。2012年合作开始后,他们的天使投资遍及几乎所有领域的热门初创企业,囊括了从MemSQL这样的数据库公司到Planet ...
[互联网] Coursera数据工程师董飞:硅谷大数据的过去与未来
董飞,Coursera数据工程师。曾先后在创业公司酷迅,百度基础架构组,Amazon 云计算部门,LinkedIn担任高级工程师,负责垂直搜索,百度云计算平台研发和广告系统的架构。董飞本科毕业于南开大学,硕士毕业于杜克大学计算机系。他在知乎上分享过多个引起强烈反响的问答,其中包括《哪些硅谷创业公司能给拜访者留下深刻印象》、《美国大数据工程师面试攻略》、《Coursera 上有哪些课程值得推荐》等。 ...
[数据库] 双倍提升Apache Spark排序性能
区别常见的Embarrassingly Parallel系统,类似MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎主要区别在于对“all-to-all” 操作的支持上。和许多分布式引擎一样,MapReduce和Spark的操作通常针对的是被分片数据集的子分片,很多操作每次只处理单个数据节点,同时这些操作所涉及到的数据往往都只存在于这个数据片 ...
[行业应用] 展望2015:数据中心行业的十大预测
摘要:在2014年即将结束之际,下一年IT产业的趋的预测也纷纷浮出水面,专家们认为明年的数据中心关键词包括网络、实时处理、Docker、OpenStack等方面。 在2014年即将结束之际,业内人士纷纷对下一年的IT产业趋势进行预测。这里是到目前为止数据中心产业一些比较有信服力的预测。 1. 巨头们着手搭建自己的网络 Cyan网络公司是一家美国网络技术供应商,根据其调查,越来越多大规模数据中心 ...
[行业应用] 盘点2014:最受关注的十大云服务创业公司
摘要:云的快速发展为创业公司带来了与传统巨头竞争的机会,它们的创建者很多都是些离开大公司且技术经验丰富的人,包括一些野心勃勃的年轻创业者,提供了从云基础设施到提供具备移动性、分析性和安全性各种解决方案。 云技术带来了技术爆炸,其快速的发展为创业公司带来了与传统巨头竞争的机会。这些创业公司很多都是些离开大公司且技术经验丰富的人,当然还有一些野心勃勃的年轻创业者,他们借助IT市场快速迭代的需求,服务范 ...
[研发管理] MIT研究团队开发出“类人”模式识别模型
摘要:麻省理工学院的一个三人研究团队已经开发出一种机器学习模型,他们通过帮助我们更好地理解发现模式,从而让人类更好地理解大数据。它的创造者称之为Bayesian Case Model。 这项研究是基于这样的思考:人类往往会倾向于根据自己的经验和看到的例子去思考并做出决定。例如,儿童也许能从他父母谈话的几个单词就知道他们正在谈论夏令营,因为他们去年去过,并且他们知道“month,” “lake” 和 ...
[Web前端] 2015年五大网络预测
摘要:2015年相比14年而言,将会带来更多的网络革新,大数据将更大更强、软件定义的事物将越来越多、新的高标准将成为主流、物联网向万物互联迈进以及CTO的作用将会越来越大,面对这些发展趋势,你做好准备了吗? 2014年是大科技变化的一年。可穿戴技术开始崭露头角、多个知名企业为客户信息做出让步而遭受数据的入侵、云计算成为公司存储信息的标准、所有事物都变成软件定义的,并且大数据成了主流。 尽管如此,2 ...
[数据库] Spark vs. MapReduce 时间节约66%,计算节约40%
摘要:本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%。 MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的 ...
[开源软件] Kylin正式发布:面向大数据的终极OLAP引擎方案
日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io)。作为一套旨在对Hadoop环境下分析流程进行加速、且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持。 背景信息 eBay公司当前面临的主要挑战在于,数据规模正随着用户群体的多样化拓展而水涨 ...
[非技术] 不要让大数据成大窥探
上段时间万维网之父Sir Tim Berners-Lee出席一活动,就互联网隐私、大数据谈了一些个人看法。他称,提高对用户隐私的保护,对互联网来说很有必要,因为人们有权看清他们的数据将如何被使用。他还表示,提供个人数据访问通道的机制可以促成“富数据”而非“大数据”的结果。 他以个人病例为例进行了说明。他说,个人病例应该能够让医生和亲人看到,但是肯定不应该让保险公司以及其他人看到。对于Sir T ...
[企业架构] GraphLab:将大数据分析从理念运用到生产
GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序。 Carlos Guestrin是GraphLab的 ...
[数据库] Spark颠覆MapReduce保持的排序记录
在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数据处理上,Apache Spark比MapReduce更加高效已经得到广泛认识;但是当数据量远超内存容量时,我们也听到了一些机构在Spark使用上的困扰。因此,我们与Spark社区一起,投入了大量的精力做Spark稳定性、扩展性、性能等方面的提升。既然Spark ...
[编程语言] 有关编程的12个猜想
编程世界的将来如何目前仍难预料,但可以肯定的一点是技术一直在加速发展。以下搜罗出12个独特的视角猜想,我们一起来看看有哪些猜想在不久的将来就能变为现实? 1. GPU接班CPU 游戏玩家们热衷于吹嘘自己的显卡有多快多高端,全开特效有多少多少FPS,而事实上GPU前进的步伐不会仅限于此。物理学家利用GPU来进行高速微观分析,航天学家利用GPU来模拟天体运动,生物学家利用GPU来研究生物种群规律。未 ...
[数据库] 开源力量公开课第49期:Spark——大数据时代的电光火 ...
开源力量公开课第49期课程题目:Spark——大数据时代的电光火石 形式: 线上公开课(免费) 直播地址:http://www.osforce.cn/openclass/65/show?id=iteye 开课时间:2014-04-01 20:00 课程背景: Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图 ...
[开源软件] 分布式计算系统 Spark 成为 Apache 顶级项目
Apache软件基金会今天宣布,Spark项目已从孵化器毕业,成为Apache软件基金会的一个顶级项目。 Spark是一个高效的分布式计算系统,发源于美国加州大学伯克利分校AMPLab的集群计算平台。 Spark被称为“Hadoop的瑞士军刀”,拥有非凡的速度和易用性。Spark立足于内存计算,相比Hadoop MapReduce,Spark在性能上要高100倍,而且Spark提供了比Had ...
[开源软件] Hadoop v2 时代正式到来
Apache基金会近日正式发布了Hadoop 2.2版本,该版本是Hadoop 2.x分支中的首个稳定版本(2.0.x为alpha版本,2.1.x为beta版本),标志着Hadoop 2时代的正式到来。 Apache建议用户升级至最新版本,因为这个版本更加稳定,并保持与之前版本API和相关协议条款的兼容。与Hadoop 1.x相比,Hadoop 2的主要亮点如下: 新的Hadoop MapR ...