资讯月刊下载
[互联网] 数据可视化方法、工具、核心理念及需要警惕的深坑
大数据是当下最火爆的话题之一。随之而来的,是数据可视化技术的持续发展,它用来展现和阐释大规模的数据。但是数据可视化技术并非千篇一律。 数据可视化是展现数据的最强大机制之一,技术上的优势也为其创造了独特的实现方法。随着交互式的、独特的数据可视化方法逐渐走向最前沿,并且观众也越来越明白他们自己的喜好和厌恶,那些绘制简单饼状图的日子将一去不复返。 接下去我们将向你介绍数据可视化的重要性,不同的数据展现 ...
[数据库] 【访谈】数据大师Olivier Grisel给志向高远的数据科学 ...
Olivier Grisel(OG)本人在Inria Parietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机器学习、文本挖掘和自然语言处理领域的专家。大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听。 在上一篇博文里(CSDN译文:[访谈] Olivier Grisel谈s ...
[数据库] 盘点大数据生态圈,那些繁花似锦的开源项目
随着互联网和移动互联网的发展,时下我们正处在一个大数据的时代。在数据金山的诱惑下,各个机构纷纷开始探索从数据中提取洞见并指导实践的可能。而在这个需求的刺激下,在过去数年,大数据开源生态圈得到了长足的发展——在数据的整个生命周期中,从收集到处理,一直到数据可视化和储存,各种开源技术框架林立。 以这些开源技术为基石,业内涌现出一系列令人敬佩的大数据架构实践,而《程序员》电子刊9月B大数据实战与技术专题 ...
[互联网] Apache Spark 1.5新特性介绍
Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。 DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失。内 ...
[开源软件] bboss 大数据抽取工具 v4.0.9 发布
bboss 大数据抽取工具 4.0.9 发布 相较上一版本(v4.0.8),v4.0.9增加了以下特性: 按照按日期字段切分任务,抽取db数据到hdfs,可以在第一次切分任务的基础上,将日期范围任务块进一步切分为更小的任务块 在数据库表分区的基础上,可以按照分区字段类型将分区切分为日期范围任务块或者数字范围任务块,同时可以将已经切分的任务快进行二次切分 增加为作业处理节点中的作业添加指 ...
[互联网] Gartner 2015新兴技术发展周期简评:大数据实用化、机 ...
如今最新兴的技术是什么?来看看最新的Gartner 2015新兴技术发展周期报告。自动驾驶汽车与物联网处在顶峰部位,而大数据正失去它新兴技术的威望。Smart Dust将会成为未来十年的新酷技术。 Gartner是一家领先的市场和技术研究公司,在2015新兴技术发展周期中发表了关于新兴技术的报告。 图1:Gartner 2015新兴技术发展周期 下图是与2014年对照图 图2:Gar ...
[数据库] Apache Spark 不过时的六大理由
在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。 在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰: 1.对所有数据而言,Hadoop分布式文件系统(HDFS)是一个直接存储平台。 2.YARN(负责资源分配和管理)是大数据 ...
[企业架构] 七牛首席架构师李道兵:在开源世界里逼自己成长
李道兵,七牛云存储首席架构师。他曾是北大化学专业博士研究生,中途毅然转行至自己喜欢的互联网行业。2007年加入金山实验室,2010年加入盛大创新院, 曾先后参与了盛大网盘项目和盛大云项目。2013年,李道兵加入七牛云存储,任职至今。他热爱开源,曾先后担任维基百科中文管理员,Debian Developer,协助维护 iso-codes 等开源软件。他喜欢架构,参与了不少高压力项目的结构设计,推崇高可 ...
[互联网] 数据分析:创建统一的公有基因组数据平台
美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。 基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一 今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设 ...
[企业架构] Facebook是如何存储每天20亿张照片的——Cold Storage ...
Facebook的庞大帝国需要存储的数据时刻都在不断爆炸。比方说,现在它每天要分享20亿张照片,而且需求还在不断增加,唯有靠不断建设扩充存储和数据中心才能满足。 此前我们曾多次介绍过Facebook的数据中心(见Facebook新数据中心揭秘、再探Facebook数据中心),包括俄勒冈的Prineville、北卡罗来纳州的Forest和瑞典的吕勒奥以及爱荷华州的阿尔图纳拥等不仅如此,Faceboo ...
[互联网] 数据分析的 7 个关键步骤
“数据科学家” 术语总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标,目标是使企业能够做出更好的决策。数据科学家构建出的产品,必须使得组织中的每个人更好地使用数据,使得每个部门、每个层级可以做出受数据驱动的决策。 在自动收集、清洗和分析数据的产品中,可以捕获数据价值链,为执行仪表盘或报告提供信息和预测。随着 ...
[编程语言] 量化分析师的Python日记【第1天:谁来给我讲讲Python ...
“谁来给我讲讲Python?” 作为无基础的初学者,只想先大概了解一下Python,随便编个小程序,并能看懂一般的程序,那些什么JAVA啊、C啊、继承啊、异常啊通通不懂怎么办,于是我找了很多资料,写成下面这篇日记,希望以完全初学者的角度入手来认识Python这个在量化领域日益重要的语言 一,熟悉基本 在正式介绍python之前,了解下面两个基本操作对后面的学习是有好处的: 1)基本的输入输出 ...
[数据库] Spark 1.3更新概述:176个贡献者,1000+ patches
近日,Databricks正式发布Spark 1.3版本。在此版本中,除下之前我们报道过的DataFrame API,此次升级还覆盖Streaming、ML、SQL等多个组件。当下,1.3版本已在 Apache Spark页面提供下载,下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括。 Spark SQL脱离Alpha版本 在1.3版本中 ...
[数据库] 55 个实用的大数据可视化分析工具
俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性;我们还需要跨学科的团队,而不是单个数据科学家、设计师或数据分析员;我们更需要重新思考我们所知道的数据可视化,图表和图形还只能在一个或两个维度上传递信息, 那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?此时就需要倚仗大数据可视化(B ...
[数据库] 如何挑选合适的大数据或Hadoop平台?
IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择,并推荐了每种选择的适用场合。 Hadoop平台的多种选择 下图展示了Hadoop平台的多种选择。你可以只安装Apache 发布版本,或从不同提供商所提供的几个发行版本中选择一个,或 ...
[互联网] 大数据里的真命题和伪命题
不管大数据怎么发展,它始终会处在时灵时不灵的状态上,因为这根本不是个技术问题,反身性作用越大的领域越不容易预测,反之则预测的帮助会比较大。因此用大数据时最好考虑其能力边界,否则就可能会得不偿失。 大数据必会深刻的改变这个世界,这点是毋庸置疑的,但从很多当下的讨论来看,大家似乎在大数据的使用边界上走入了误区,这篇文章想具体探讨下大数据能干什么以及不能干什么上的原则问题。 大数据与预测 人们总 ...