`
maosheng
  • 浏览: 570158 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

BI 大数据分析

    博客分类:
  • BI
 
阅读更多
基本概念:

在BI中,用来监控公司运行的可概况的数值被称作度量值(measure)。


层次结构是将相关组织成级而形成的,层次结构可以少至数级。层次结构有一个最低的级,叫做叶级,其上是若干的中间级,最后是顶级。在大多数的层次结构中,顶级是All级并只包含单个All成员。可以将层次结构中的成员比作父子关系,如果子成员只有一个父成员,则该层次结构为自然层次结构。如果是一个对称层次结构,那么层次结构中的每条路径都有相同数目的级并且每级都有一个成员。在不对称层次结构中,不同的路径会有不同数据的级。在不规则层次结构中,每条路径有相同数目的级,但并非所有级都有成员。

独立属性和层次结构就是报表的维度,一个维度可能不止包含一个属性,但每个维度有且仅有一个关键属性。其他与关键属性相关的属性都等于同一个维度。由于属性属于维度,属性成员也即维度成员。

层次结构是通过将属性组织为级而创建的。用于创建层次结构的属性必须属于同一维度,同时该层次结构也属于该维度。

一个维度数据模型包括度量值、能被聚合的数值和能被组织成维度的相关属性和层次结构。

在维度数据仓库中,维度存储在维度表中,度量值被称作事实并存储于事实表(fact table)中。

在维度数据仓库中,存储度量值的详细值或事实的表称作事实表





Spark是一个高效的分布式计算系统,Spark立足于内存计算,相比Hadoop MapReduce,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。

Spark基于map reduce算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点,但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS。

Spark与Hadoop对比:
1.Spark的中间数据放到内存中,一次创建数据集,可以多次迭代运算,减少了IO的开销,对于迭代运算效率更高。
2.Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念
3.Spark比Hadoop更通用
4.Spark提供的数据集操作类型有很多种
5.对机器学习算法、图计算能力有很好的支持


Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。


Tachyon是一个高效的分布式存储系统。目前发布的为整体项目的部分功能(缓存部分),此部分功能在一次写、多次读的环境下为系统的性能带来最大的提升。








分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics