- 浏览: 245602 次
- 性别:
- 来自: 深圳
最新评论
-
letian611:
...
滴滴背后的大数据应用 -
MCLoginandPwd:
分享一款代码生成器,拖拽式组件结合流式处理,很容易的访问数据库 ...
Docker和hadoop -
rashly:
可以跟你加个好友吗
智能调度:Stanford的Quasar -
rashly:
请问你有没有quasar的源代码
智能调度:Stanford的Quasar -
jiezhu2007:
主要讲架构的书
为什么写《大数据架构详解》这本书
文章列表
Don’t Cut Yourself: Code Optimization as a Double-Edged Sword。中文翻译:过早优化是万恶之源。
代码优化的好处多多,但是这并不意味着所有的代码都需要进行优化,有时过度的优化反而适得其反——费时、费力、不讨好。
...
最近主要在研究大数典型应用adhoc query,要实现秒级的adhoc query,通常有3种思路:
1、用搜索技术,将查询都建立索引,然后用搜索技术来实现。这种技术目前主要限制是索引建立和存储成本高,索引建立不及时,例如支付宝的higo。
2、实时计算,对不能指定维度的查询,理论上认为是实时计算,每个列上建立函数索引,这种典型的代表是mesa。关于mesa,前面我有篇简单的介绍性文章《
浅论Hadoop应用工作思路
- 博客分类:
- 大数据产业分析专栏
随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论:
首先最重要的是建立一支以开发人员为主的团队。
Hadoop虽然很火,但是还是在初级阶段,开源的东西存在业务不完全匹配,成熟度低等诸多问题。所以不管是什么公司,什么部门,应该建设一支以开发人员为主的团队。立足于能读懂开源代码,能修改bug,可以根据自己的场景进行适度匹配。
团队建立之后,以团队技能成熟度模型为指导,牵引团队技能逐渐成熟,达到事成人爽。关于团队成熟度,以前写过一篇博文《开源软件使用
开源软件使用3个level
- 博客分类:
- 大数据产业分析专栏
越来越多的公司,越来越多的个人开始使用开源软件。hadoop ecosystem之所以有今天的繁荣当能是因为搭上了大数据的兴起之风,但是更重要奠基它的是一开始的开源策略。
使用开源软件也分多个level。
level 1 :会用
懂原理,会部署,根据实际业务场景配置参数调优,定位简单的系统级的错误。
level 2 :能改
可以定位代码级别的错误,能修改开源代码,在开源基础上适配简单的feture。
Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作。
Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和具有挑战性的用户与系统需求,包括近实时数据提取和查询,同时在海量数据和查询量中保持高可用性、可靠性、容错率和扩展性。Mesa每秒能处理数百万行更新,每天进行数十亿查询抓取数万亿行数据。
运营商都有哪些数据?
- 博客分类:
- 大数据产业分析专栏
这两年大数据很火,那究竟谁掌握了用户更多的数据?腾讯?百度?不是,是运营商,是移动,联通,电信这些运营商。我们举例来看看运营商都有哪些用户数据。
1、位置数据
无线是用一个个蜂窝来划分区域的,一个蜂窝叫一个小区,所以只要电话在线,就需要注册到一个个小区中去,知道了小区就知道了用户所在的位置。通过小区切换就能计算出用户移动的轨迹,这个就是用户的位置数据。
2、
现在手机上装个导航软件,如高德地图,百度地图等等都有实时路况显示,导航和道路规划可以根据实时路况来实施,从而动态躲避拥堵,为出行节省时间,为了显示实时路况就必须有路况数据,今天来说下实时数据的获取方法。一般来说有以下几种典型数据来源获取方法:
1、实时路况数据最主要的收集方式,还是浮动车。这个浮动车包括出租车、长途客车、物流车辆等等,其中主力就是在城市市区里活动的出租车。在这些车辆上安装的GPS终端,通过手机通讯网络将当时的经纬度位置、车头方向、速度等值传递到处理中心,进而计算出全市主要道路的道路通行情况。举个例子,比如北京有几万辆出租车,同时在某个路段行驶的车有30辆,当这30辆车反馈的 ...
以前写过一篇文档讨论MPP DB的发展,《MPP DB 是大数据实时分析系统未来的选择吗?》,当时主要是想讨论下Greenplum数据库是否合适做数据存储,以及实时查询。文章我主要提的MPP DB短板是扩展性和对并发的支持,从目前Pivotal公司主推的HAWK,已经可以清
浅谈资源管理技术的未来发展之路
- 博客分类:
- hadoop技术专栏
关于资源管理业界主要框架,大家可以看我前面的文章。资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析。业界当前最典型的就是YARN和MESOS,各自有支持者。
YARN和MESOS基本原理和框架类似,都是二层调度的思路,将集群的 ...
在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。
Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在
淘宝这两年比较火,马云为了淘宝整体上市卖个好价钱,吹了不少泡泡。但是从对大数据技术这块来看,个人以为目前淘宝是做的比较好的。淘宝为什么搞得好,还是因为马云本身较早的把数据放到了全公司的战略的地位,所以为了搞好大数据,网罗了不少人才。现在搞数据分析相关技术的同学,如果能拿到的淘宝的OFFER的话,给的都还是比较的高。
下面来简单看下淘宝的技术架构:(淘宝技术也在不停的发展,现在公开的资料可能有些老,当前的分析是基于公开的资料)
整个分为四层:
数据源:来自传统的数据库,RAC集群,系统日志等等。数据的采集用到的了Datax/DbSync/TimeTunnel。DataX是主要是用来 ...
Hadoop是开源的,但是企业版本其实是由几家大的公司把持,这个就类似linux的redhat和suse一样,提供hadoop发型版本的公司主要的有Hortonworks,Cloudera,mapR。
今天简单介绍Hortonworks:
先了解下Hortonworks的起源,Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月联合创建,出身于名门Yahoo,Hortonworks拥有着许多Hadoop架 构师和源代码贡献者,这些源代码贡献者以前均效力于Yahoo,而且已经为Apache Hadoop项目贡献了超过80%的源代码。
Hortonwo ...
腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。
下面这个图是腾讯的技术架构图:
整个系统相对比较简单,主要有以下几大组件组成。
TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅”模型的分布式消息中间件,它起到了很好的缓存和缓冲作用,系统类似kafka,目前的资料不清楚,是否是kafka改造而来?
TDW(Tencent distributed Data Warehouse ...
本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。
谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈现等特点。一般来说,大数据分析处理平台有以下几个显著特点:
规模大,集群化。百度,腾讯,阿里的大数据分析平台目前都在几千甚至上万台X86服务器的规模。
复杂度高,多个子系统异构。现在很难有一种技术能把所有问题搞定,所以通常是多个子系统混合一起通力合作。
系统负载高,压力大,从腾讯公布的数据 ...
大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。
当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以