`
jason204
  • 浏览: 41684 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hadoop BI Architecture

阅读更多


   1.Hadoop 与BI

 

  2009年,Cloudera发表Analyzing Apache logs with Pig文章[7]。
  2010年,Cloudera发表Hadoop与BI思考的文章,给出了When/How to integrate Hadoop with BI的5条建议[6]。  
  2011年8月,CACM发表了BI综述文章[1],总结了BI的组成部分和关键技术,面临大数据的挑战,提出了最新的BI架构,见图1。
  
  
  
  
  Figure 1:BI Architecture
  
  本文只针对MapReduce Engine部分做相关讨论,后续会对Complex Event Processsing Engine、Text Analytic Engine、Enterprise Search Engine(BI Search)做一些分析。
  
  2.什么是Hadoop?
  
  Hadoop开源软件支持在普通PC集群上进行可靠的,伸缩性的,分布式的计算处理,可以处理TB级甚至PB级的非结构化和结构化数据,将大工作量分解成集群中各个普通机上更小的数据块,以达到更快地处理的效果。Hadoop是相关技术的框架集合——HDFS、HBase、Cassandra、Hive、Pig、ZooKeeper、Mahout、Hcatalog、Hue,详见图2。
  
    
  
 
  Figure 2:Cloudera Hadoop Ecosystem[2]
  
  3. Two Distinct Hadoop Use cases
  
  现在,Hadoop用于两个不同用例(Use Case)[3][4](见图3),其中涉及Hadoop技术见图4。  
  Data Processing: Hadoop ETL功能,包括预处理,过滤,转换,通过Pig/Hive/Oozie/Sqoop等工具实现。
  Advanced Analytics:大规模的Events日志数据或Content分析处理, 包括Data Mining功能,例如call records, behavioral analysis, social network analysis, clickstream data,next-best action, customer experience optimization, social media analytics等 [5], 通过Mahout来实现。
    
  
    Figure 3:Two Core Use Cases Common Across Many Industries
  

  
 
 
  Figure 4:Data Processing and Advanced Analytics Tools[4]
  
  4.Hadoop BI architecture
  
  从Cloudera的观点(图5),Hadoop扮演了ETL和BI Analytics双重角色,其中ETL包括对结构化和非结构化的数据处理(是否用hadoop处理结构化的数据,视情况而定)。Hadoop  BI Architecture可参考图6。
  


 
 
  Figure 5:Where Does Hadoop Fit in  the Enterprise DataStack?[2]
  
  

  
  Figure 6:Business  Intelligence After Adopting Apache Hadoop[2]
  

  5 结论

 

  本文讨论了BI with Hadoop的架构,Hadoop丰富了BI的ETL(Data Processing)和Data Mining(Advanced Analytics)功能。但是现在大数据处理平台也体现多样化,例如MongoDB,Cassandra等NoSQL平台,Aster/ Greenplum/Oracle等Vendor的MapReduce应用产品,私有云/共有云/混合云等等,将来的云BI 会怎样呢?架构又是如何呢?以后再做详细分析。


  Reference:    

[1] An Overview of Business Intelligence Technology

[2] How Apache Hadoop is Revolutionizing Business Intelligence and Data Analytics

[3] Hadoop Applied

[4] Hadoop, Big Data, and Enterprise Business Intelligence

[5] 10 Common Hadoop-able Problems

[6] Considerations for Hadoop and BI

[7] Analyzing Apache logs with Pig

  

       Updated on 2012/03/14
  

 

  • 大小: 51.7 KB
  • 大小: 44.5 KB
  • 大小: 63 KB
  • 大小: 79.1 KB
  • 大小: 62.1 KB
  • 大小: 42.5 KB
分享到:
评论

相关推荐

    Hadoop Application Architecture

    Hadoop Application Architecture epub 书籍,高清,详细

    Hadoop最新版本下载(0.23.0)

    Hadoop是一款开源的大数据处理框架,由Apache基金会开发并维护,它主要设计用于处理和存储海量数据。在本文中,我们将深入探讨Hadoop的最新版本0.23.0,了解其特性、改进以及如何下载和使用。 首先,Hadoop的核心...

    Hadoop Data lake Architecture

    AMAT实施的,基于Hadoop的数据湖架构设计方案,是整体架构方面的设计。

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...

    hadoop-common.zip

    标签中的"hadoop-common-bi"可能指的是Hadoop Common在商业智能(BI)场景的应用,这意味着Hadoop Common在数据仓库、数据分析和报表生成等场景中起到了关键作用。Hadoop Common提供的文件系统接口和数据处理工具...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    hadoop2.7.7对应的hadoop.dll,winutils.exe

    在Hadoop生态系统中,Hadoop 2.7.7是一个重要的版本,它为大数据处理提供了稳定性和性能优化。Hadoop通常被用作Linux环境下的分布式计算框架,但有时开发者或学习者在Windows环境下也需要进行Hadoop相关的开发和测试...

    hadoop+hive+finebi笔记.rar

    内容概要:让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间。 适合人群:具备一定编程基础人员 能学到什么: HDFS+MapReduce+Hive 基于数据仓库实现离线数据分析的可视化报表开发。 Hadoop...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    Hadoop.Application.Architectures.1491900083

    Architecture examples for clickstream analysis, fraud detection, and data warehousing Table of Contents Part I. Architectural Considerations For Hadoop Applications Chapter 1. Data Modeling In Hadoop ...

    hadoop.dll & winutils.exe For hadoop-2.6.0

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说。本文将详细介绍这两个文件以及它们在Hadoop 2.6.0版本中的作用。 `hadoop.dll`是Hadoop在Windows环境下运行所必需的一...

    hadoop2.6 hadoop.dll+winutils.exe

    标题 "hadoop2.6 hadoop.dll+winutils.exe" 提到的是Hadoop 2.6版本中的两个关键组件:`hadoop.dll` 和 `winutils.exe`,这两个组件对于在Windows环境中配置和运行Hadoop至关重要。Hadoop原本是为Linux环境设计的,...

    win环境 hadoop 3.1.0安装包

    在Windows环境下安装Hadoop 3.1.0是学习和使用大数据处理技术的重要步骤。Hadoop是一个开源框架,主要用于分布式存储和处理大规模数据集。在这个过程中,我们将详细讲解Hadoop 3.1.0在Windows上的安装过程以及相关...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它是由Apache软件基金会开发并维护的,旨在实现高效、可扩展的数据处理能力。Hadoop的核心由两个主要组件构成:Hadoop Distributed ...

Global site tag (gtag.js) - Google Analytics