- 浏览: 245520 次
- 性别:
- 来自: 深圳
最新评论
-
letian611:
...
滴滴背后的大数据应用 -
MCLoginandPwd:
分享一款代码生成器,拖拽式组件结合流式处理,很容易的访问数据库 ...
Docker和hadoop -
rashly:
可以跟你加个好友吗
智能调度:Stanford的Quasar -
rashly:
请问你有没有quasar的源代码
智能调度:Stanford的Quasar -
jiezhu2007:
主要讲架构的书
为什么写《大数据架构详解》这本书
文章列表
初做系统设计,积累一些心得,大家一起讨论。
1、 关于需求:
初做系统设计,容易先入为主,收集需求的时候就考虑人力,技术等原因,在很前面的就把某些功能砍掉。
如果这样分析问题,整个系统就没有全貌,容易出现 ...
- 2013-07-28 19:20
- 浏览 1483
- 评论(0)
1、总体架构说明:
(1)Greenplum:
MPP架构(Massively Parallel Processing):大规模并行处理系统。
整个系统是一组独立的数据库阵列。每个数据库相互独立,有独立的数据存储,日志,索引等等。
集群中HOST分为两种,一个是MASTER HOST,一个是SEGMENT HOST。MASTER HOST
不存放数据,只存放全局系统目录(存放数据自身一些元数据),负责客户端连接,处理SQL命令,分发SEMENT任务,汇总SEGMENT返回的结果,展现给最后的结果给客户端程序。
SEGMENT HOST存放用户数据和索引。同一个HO ...
1 架构:
三层软件架构:
SQL front-end:前端SQL解析,数据模型优化,降低数据中间结果的总量,最后将SQL语句解析为MAL(MonetDB Assembly Language)。
Tactical-optimizers:一系列优化模块的集合,组成优化管道,这个模块提供功能从符号处理到实时数据分发和执行。
Columnar abstract-machine kernel:列式内核
2 MAL
Sybase IQ是一款专门针对OLAP应用的数据仓库,不适合OLTP。
1. IQ数据库特点:列式存储 和默认的FP压缩。
列式存储读取多个列中读取部分列时,可以明显减少IO,加快读取速度。同时由于列式的原因,只适合批量写和查询,不适合 ...
What is Spark?
Spark is an open source cluster computing system that aims to make data analytics fast — both fast to run and fast to write.
spark 是一个开源的计算集群系统,目标是数据分析快速的执行和快速写的。
To run programs faster, Spark provides primitives for in-memory cluster computing: your job can load data into memory an ...
ETL :提取 转换 加载
大数据的的一个最重要特点是,很多数据是无用的,必须经过一定的处理之后才有加载。而将杂乱无章的数据处理成有用的数据的过程叫ETL。BI系统发展了很多年,形成了很多ETL方法,工具。主要分为以下几类:
第一类:传统ETL,如DATASTAGE,INFORMATIC。这类是最传统的ETL,可以接入多种数据源,用户通过工具自带的界面定制任务和处理流程,复杂业务逻辑可以通过工具支持的脚本语言编程实现。任务和流程定制完成之后,转发成JAVA任务,自动在集群负荷分担。传统ETL存在效率底,对数据的处理支持有限的问题。
第二类:数据库厂商,如ORACLE ODI,充分利用自身的 ...
1;PC出货量下降百分之七,平板电脑出货挤占了PC的出货。随着穿戴设备发展,职能家电等各种智能的发展。在可以遇见的未来,PC的功能会逐渐弱化,有一天PC会变成专业设备。
2;对消费者电子设备来说,硬盘死期将至。硬盘的今天就是磁带的昨天。传统硬盘,速度和体积已经严重不适合消费者电子领域使用。
3;随着云计算发展。摩尔定义已经不合时宜,云会释放终端性能增长的压力。一个更快的网络和更丰富的应用才是大家急需的。
4,sdn软件定义网络,随着网络带宽日渐不满足需求,原有网络组网天生的缺陷终于被提上了台面,控制和数据不分离,导致QOS实现非常困难。电信总工韦乐平很早就提到IT会借鉴CT的控制思路,两个网络会 ...
1,平台选数据仓库还是hadoop
甘特把大数据定义为三个V(高容量,髙速度,多类型),主要讲的是数据量大的问题,传统的数据库在处理结构化,容量有限的数据有非常大的性能优势。碰到数据量大到一定程度,且对实时性要求不高的话,hadoop平台在稳定性方面有很大优势。传统数据仓库普遍存在价格高,稳定性一般的问题。
2,no SQL的含义
开源一直争论的No SQL,有不同的解读,有开始的no SQL,到后面的not only SQL,到google推出最新的f1数据库,no sql又变成no time to support SQL。传统数据仓库如果很好的解决了扩展性和稳定 ...