-
hadoop技术学习
收藏1、大数据和云计算技术学习;2、内核代码研究;3、架构分享。 同时欢迎关注微信公众号: “大数据和云计算技术”。该微信公众号已经有几千人关注,微信领域关注度排名排前的公众号。
最近更新文章
大数据仓库-增量更新
2015-12-03 朱洁 hadoop技术学习
现在是国内凌晨3点,为了抵挡睡意,还是写写技术博客。今天和大家讨论下大数据仓库中的更新技术。
大数据仓库-kudu
数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个数仓的基础。
kudu目标
cloudera公司最近发布了一个kudu存储引擎。按照cloudera的想法,kudu的出现是为了解决,hbase,parquet不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。cloudera 的设计目标是:(http://blo ...
大数据数据仓库-场景
大数据仓库-场景
2015-10-24 朱洁 hadoop技术学习
传统OLTP/OLAP之分
数据仓库里面有OLTP/OLAP之分,OLTP是传统关系型数据库的主要应用,其主要面向基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
Cloud_Native是什么
Cloud_Native概念最近比较火,因此研究下到底讲的是什么含义。
Cloud_Native从概念上讲核心说的是传统的应用部署在数据中心上的架构不适合云化的环境,要充分利用云基础设施的可编程性和扩展性,又要规避云基础设施的不可靠,cloud_native核心改变是fit app to infra,而不是fit infra to app。
什么样的应用才算是C ...
快速理解docker
技术源头
简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案,Docker container和普通的虚拟机Image相比, 最大的区别是它并不包含操作系统内核。因此非常轻量。
普通虚拟机将整个操作系统运行在虚拟的硬件平台上, 进而提供完整的运行环境供应用程序运行, 而Docker则直接在宿主平台上加载运行应用程序 ...
智能调度:Stanford的Quasar
智能、自动化是对系统孜孜不倦的追求,尤其是在资源调度这块。传统的YARN/MESOS有各种资源分配算法,如DRF,capacity scheduler,fair scheduler。这些调度算法聚焦在资源的匹配和分配上面。其中最大的问题设计思路是基于预留的思路,要求应用提出资源的需求,而在现实中往往是不现实的。不现实在两个方面:
job需要的资源和需要处理的数据量,过程的复杂度强相关。而这 ...
大数据服务上云的思考
最近看到亚马逊第一次单独公布AWS财报,一年营收57亿美元,市场份额占比第一。混合云市场,2014年,IBM以综合的IT能力,收入70亿夺魁。云计算喊了这 ...
大数据十年内会成为屌丝产业
先从马云说起,马云最近几件事很闹心,阿里的股票从最高的119跌倒了81块,跌去了三分之一,年初取消了全员红包搞得民怨沸腾,天猫总裁乔峰被免职,网上传言纷纷,甚至还有小道消息是天猫团队周末不加班导致。经过前面两年吹泡泡之后,淘宝还是要终归回归企业发展的本质来,就是要赚钱。前面我写过一篇文章《泼一泼阿里的冷水,阿里几大隐忧》,我还是维持我当时的看法淘宝仍能估值太高。
Automatic Management of Data and Computation in Datacenters
最近在研究数据中心的数据管理和性能优化,看了一篇2010的论文Nectar:Automatic Management of Data and Computation in Datacenters,还是有一定的启发的,简要介绍给大家。详细的建议大家download论文下来看下。
Nectar核心思路有两个:
腾讯实时检索分析平台hermes介绍
腾讯大数据最近做了几件事,上线了一个官方网站http://data.qq.com/,将TDW(腾讯大数据库仓库)开源了,封闭的企鹅难得开放了一回。大数据网站上有一些资料,我看到一个叫Hermes爱马仕的系统挺有意思的,今天介绍下。
关于实时分析系统我前面写个几篇文章分析,包括《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是 大数据实时分析系统 未来的选择吗?》《一套 ...
大数据平台核心竞争力:业务敏捷性,实时性,性能
最近在考虑新一年的架构的时候,我就在想一个大数据平台核心竞争力到底是什么?每个平台发展的阶段可能不太一样,所以所需要的核心竞争力不同 ...
一套数据,多种引擎续---两种数据格式(Parquet/ORCfile)浅析
最近主要在研究大数典型应用adhoc query,要实现秒级的adhoc query,通常有3种思路:
1、用搜索技术,将查询都建立索引,然后用搜索技术来实现。这种技术目前主要限制是索引建立和存储成本高,索引建立不及时,例如支付宝的higo。
2、实时计算,对不能指定维度的查询,理论上认为是实时计算,每个列上建立函数索引,这种典型的代表是mesa。关于mesa,前面我有篇简单的介绍性文章《
mesa介绍:google 近实时数据仓库系统
Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作。
Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和具有挑战性的用户与系统需求,包括近实时数据提取和查询,同时在海量数据和查询量中保持高可用性、可靠性、容错率和扩展性。Mesa每秒能处理数百 ...
一套数据,多种引擎(impala/Hive/kylin)
以前写过一篇文档讨论MPP DB的发展,《MPP DB 是大数据实时分析系统未来的选择吗?》,当时主要是想讨论下Greenplum数据库是否合适做数据存储,以及实时查询。文章我主要提的MPP DB短板是扩展性和对并发的支持,从目前Pivotal公司主推的HAWK,已经可以清
浅谈资源管理技术的未来发展之路
关于资源管理业界主要框架,大家可以看我前面的文章。资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析。业界当前最典型的就是YARN和MESOS,各自 ...
hadoop发行商介绍:Cloudera
在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。
Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mi ...
管中窥豹之淘宝大数据平台
淘宝这两年比较火,马云为了淘宝整体上市卖个好价钱,吹了不少泡泡。但是从对大数据技术这块来看,个人以为目前淘宝是做的比较好的。淘宝为什么搞得好,还是因为马云本身较早的把数据放到了全公司的战略的地位,所以为了搞好大数据,网罗了不少人才。现在搞数据分析相关技术的同学,如果能拿到的淘宝的OFFER的话,给的都还是比较的高。
下面来简单看下淘宝的技术架构:(淘宝技术也在不停的发展,现在公开的资料可能有些 ...
管中窥豹:腾讯大数据平台
腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。
下面这个图是腾讯的技术架构图:
整个系统相对比较简单,主要有以下几大组件组成。
TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订阅 ...
MPP DB 是 大数据实时分析系统 未来的选择吗?
大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。
当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好 ...