`
jason204
  • 浏览: 43048 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop BI Architecture

阅读更多


   1.Hadoop 与BI

 

  2009年,Cloudera发表Analyzing Apache logs with Pig文章[7]。
  2010年,Cloudera发表Hadoop与BI思考的文章,给出了When/How to integrate Hadoop with BI的5条建议[6]。  
  2011年8月,CACM发表了BI综述文章[1],总结了BI的组成部分和关键技术,面临大数据的挑战,提出了最新的BI架构,见图1。
  
  
  
  
  Figure 1:BI Architecture
  
  本文只针对MapReduce Engine部分做相关讨论,后续会对Complex Event Processsing Engine、Text Analytic Engine、Enterprise Search Engine(BI Search)做一些分析。
  
  2.什么是Hadoop?
  
  Hadoop开源软件支持在普通PC集群上进行可靠的,伸缩性的,分布式的计算处理,可以处理TB级甚至PB级的非结构化和结构化数据,将大工作量分解成集群中各个普通机上更小的数据块,以达到更快地处理的效果。Hadoop是相关技术的框架集合——HDFS、HBase、Cassandra、Hive、Pig、ZooKeeper、Mahout、Hcatalog、Hue,详见图2。
  
    
  
 
  Figure 2:Cloudera Hadoop Ecosystem[2]
  
  3. Two Distinct Hadoop Use cases
  
  现在,Hadoop用于两个不同用例(Use Case)[3][4](见图3),其中涉及Hadoop技术见图4。  
  Data Processing: Hadoop ETL功能,包括预处理,过滤,转换,通过Pig/Hive/Oozie/Sqoop等工具实现。
  Advanced Analytics:大规模的Events日志数据或Content分析处理, 包括Data Mining功能,例如call records, behavioral analysis, social network analysis, clickstream data,next-best action, customer experience optimization, social media analytics等 [5], 通过Mahout来实现。
    
  
    Figure 3:Two Core Use Cases Common Across Many Industries
  

  
 
 
  Figure 4:Data Processing and Advanced Analytics Tools[4]
  
  4.Hadoop BI architecture
  
  从Cloudera的观点(图5),Hadoop扮演了ETL和BI Analytics双重角色,其中ETL包括对结构化和非结构化的数据处理(是否用hadoop处理结构化的数据,视情况而定)。Hadoop  BI Architecture可参考图6。
  


 
 
  Figure 5:Where Does Hadoop Fit in  the Enterprise DataStack?[2]
  
  

  
  Figure 6:Business  Intelligence After Adopting Apache Hadoop[2]
  

  5 结论

 

  本文讨论了BI with Hadoop的架构,Hadoop丰富了BI的ETL(Data Processing)和Data Mining(Advanced Analytics)功能。但是现在大数据处理平台也体现多样化,例如MongoDB,Cassandra等NoSQL平台,Aster/ Greenplum/Oracle等Vendor的MapReduce应用产品,私有云/共有云/混合云等等,将来的云BI 会怎样呢?架构又是如何呢?以后再做详细分析。


  Reference:    

[1] An Overview of Business Intelligence Technology

[2] How Apache Hadoop is Revolutionizing Business Intelligence and Data Analytics

[3] Hadoop Applied

[4] Hadoop, Big Data, and Enterprise Business Intelligence

[5] 10 Common Hadoop-able Problems

[6] Considerations for Hadoop and BI

[7] Analyzing Apache logs with Pig

  

       Updated on 2012/03/14
  

 

  • 大小: 51.7 KB
  • 大小: 44.5 KB
  • 大小: 63 KB
  • 大小: 79.1 KB
  • 大小: 62.1 KB
  • 大小: 42.5 KB
分享到:
评论

相关推荐

    BI商务智能系统及其技术架构研究.rar

    2. 分布式架构(Distributed Architecture):利用云计算或大数据平台,如Hadoop,实现分布式计算和存储,提升处理大规模数据的能力。 3. 微服务架构(Microservices Architecture):将BI系统拆分为多个独立的服务...

    HDInsight Essentials(PACKT,2ed,2015)

    A Hadoop-based architecture offers a radical solution, as it is designed specifically to handle huge sets of unstructured data. This book takes you through the journey of building a modern data lake...

    Sams.Teach.Yourself.Big.Data.Analytics.with.Microsoft.HDInsight

    Introduction to Hadoop, Architecture, Ecosystem and Microsoft HDInsight Getting to know Hadoop 2.0 and the innovations it provides like HDFS2 and YARN Quickly installing, configuring, and monitoring ...

    Teradata:Teradata大数据分析技术教程.docx

    Teradata数据库采用的独特并行架构为Networked Data Architecture(NDA),支持大规模并行处理(MPP),包含控制节点、计算节点、存储节点及高效网络连接,可实现数据在多个节点间高效分布处理。在数据仓库方面,...

    基于动态数据仓库的商务智能系统研究.pdf

    在新的数据架构中,动态数据仓库还涉及到大数据处理和流计算技术,如Hadoop、Spark等,这些技术能够处理大规模、高频率的数据流,以满足实时分析的需求。此外,随着云计算的发展,云数据仓库提供了弹性的存储和计算...

    Platform-Architecture:RISIS平台

    5. **可视化与报告**:为了便于理解和交流,RISIS平台通常集成图形化用户界面(GUI)和数据可视化工具,如Tableau、PowerBI或D3.js,帮助用户生成交互式图表和报告。 6. **用户接口**:一个直观的用户界面是RISIS...

    大数据模型构建平台介绍vPPT学习教案.pptx

    此外,由于通信行业的BI系统发展遇到瓶颈,指标混乱,管理无序,迫切需要对数据仓库进行重构。随着亚信战略转型,对金融、电商、政企等大市场的关注度提高,模型建设的需求日益增加,因此,构建一个高效的大数据模型...

    企业信息化常见缩略词汇总(免费.zip

    7. SOA:Service-Oriented Architecture,面向服务的架构,是一种设计和构建软件系统的方法,强调将功能封装为独立的服务,便于重用和组合。 8. IoT:Internet of Things,物联网,是指物体通过网络互相连接并交换...

    管理信息系统5-13专有名词整理.docx

    商务智能(Business Intelligence, BI)涉及收集、分析和解释大量业务数据,以提供洞察力和决策支持。信息部门是负责组织内部信息技术管理的团队,而信息主管(CIO)是这个部门的负责人,负责制定IT战略并确保其符合...

    大数据架构与关键技术.doc

    大数据参照架构(Big Data Reference Architecture, BDR架构)是基于NIST和JTC1/SC32的研究成果,结合大数据的理解和分析构建的通用模型。它由“一种概念体系”和“二个价值链维度”组成。 1. **概念体系**:BDR...

Global site tag (gtag.js) - Google Analytics