1.Hadoop 与BI
2009年,Cloudera发表Analyzing Apache logs with Pig文章[7]。
2010年,Cloudera发表Hadoop与BI思考的文章,给出了When/How to integrate Hadoop with BI的5条建议[6]。
2011年8月,CACM发表了BI综述文章[1],总结了BI的组成部分和关键技术,面临大数据的挑战,提出了最新的BI架构,见图1。
Figure 1:BI Architecture
本文只针对MapReduce Engine部分做相关讨论,后续会对Complex Event Processsing Engine、Text Analytic Engine、Enterprise Search Engine(BI Search)做一些分析。
2.什么是Hadoop?
Hadoop开源软件支持在普通PC集群上进行可靠的,伸缩性的,分布式的计算处理,可以处理TB级甚至PB级的非结构化和结构化数据,将大工作量分解成集群中各个普通机上更小的数据块,以达到更快地处理的效果。Hadoop是相关技术的框架集合——HDFS、HBase、Cassandra、Hive、Pig、ZooKeeper、Mahout、Hcatalog、Hue,详见图2。
Figure 2:Cloudera Hadoop Ecosystem[2]
3. Two Distinct Hadoop Use cases
现在,Hadoop用于两个不同用例(Use Case)[3][4](见图3),其中涉及Hadoop技术见图4。
Data Processing: Hadoop ETL功能,包括预处理,过滤,转换,通过Pig/Hive/Oozie/Sqoop等工具实现。
Advanced Analytics:大规模的Events日志数据或Content分析处理, 包括Data Mining功能,例如call records, behavioral analysis, social network analysis, clickstream data,next-best action, customer experience optimization, social media analytics等 [5], 通过Mahout来实现。
Figure 3:Two Core Use Cases Common Across Many Industries
Figure 4:Data Processing and Advanced Analytics Tools[4]
4.Hadoop BI architecture
从Cloudera的观点(图5),Hadoop扮演了ETL和BI Analytics双重角色,其中ETL包括对结构化和非结构化的数据处理(是否用hadoop处理结构化的数据,视情况而定)。Hadoop BI Architecture可参考图6。
Figure 5:Where Does Hadoop Fit in the Enterprise DataStack?[2]
Figure 6:Business Intelligence After Adopting Apache Hadoop[2]
5 结论
本文讨论了BI with Hadoop的架构,Hadoop丰富了BI的ETL(Data Processing)和Data Mining(Advanced Analytics)功能。但是现在大数据处理平台也体现多样化,例如MongoDB,Cassandra等NoSQL平台,Aster/ Greenplum/Oracle等Vendor的MapReduce应用产品,私有云/共有云/混合云等等,将来的云BI 会怎样呢?架构又是如何呢?以后再做详细分析。
Reference:
[1] An Overview of Business Intelligence Technology
[2] How Apache Hadoop is Revolutionizing Business Intelligence and Data Analytics
[3] Hadoop Applied
[4] Hadoop, Big Data, and Enterprise Business Intelligence
[5] 10 Common Hadoop-able Problems
[6] Considerations for Hadoop and BI
[7] Analyzing Apache logs with Pig
Updated on 2012/03/14
- 大小: 51.7 KB
- 大小: 44.5 KB
- 大小: 63 KB
- 大小: 79.1 KB
- 大小: 62.1 KB
- 大小: 42.5 KB
分享到:
相关推荐
Hadoop Application Architecture epub 书籍,高清,详细
Hadoop是一款开源的大数据处理框架,由Apache基金会开发并维护,它主要设计用于处理和存储海量数据。在本文中,我们将深入探讨Hadoop的最新版本0.23.0,了解其特性、改进以及如何下载和使用。 首先,Hadoop的核心...
AMAT实施的,基于Hadoop的数据湖架构设计方案,是整体架构方面的设计。
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...
Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本文将详细探讨与"Hadoop.dll"和"winutils.exe"相关的知识点,以及它们在Hadoop-2.7.1版本中的作用。 Hadoop.dll是Hadoop在...
标签中的"hadoop-common-bi"可能指的是Hadoop Common在商业智能(BI)场景的应用,这意味着Hadoop Common在数据仓库、数据分析和报表生成等场景中起到了关键作用。Hadoop Common提供的文件系统接口和数据处理工具...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
在Hadoop生态系统中,Hadoop 2.7.7是一个重要的版本,它为大数据处理提供了稳定性和性能优化。Hadoop通常被用作Linux环境下的分布式计算框架,但有时开发者或学习者在Windows环境下也需要进行Hadoop相关的开发和测试...
内容概要:让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间。 适合人群:具备一定编程基础人员 能学到什么: HDFS+MapReduce+Hive 基于数据仓库实现离线数据分析的可视化报表开发。 Hadoop...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
Architecture examples for clickstream analysis, fraud detection, and data warehousing Table of Contents Part I. Architectural Considerations For Hadoop Applications Chapter 1. Data Modeling In Hadoop ...
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说。本文将详细介绍这两个文件以及它们在Hadoop 2.6.0版本中的作用。 `hadoop.dll`是Hadoop在Windows环境下运行所必需的一...
标题 "hadoop2.6 hadoop.dll+winutils.exe" 提到的是Hadoop 2.6版本中的两个关键组件:`hadoop.dll` 和 `winutils.exe`,这两个组件对于在Windows环境中配置和运行Hadoop至关重要。Hadoop原本是为Linux环境设计的,...
在Windows环境下安装Hadoop 3.1.0是学习和使用大数据处理技术的重要步骤。Hadoop是一个开源框架,主要用于分布式存储和处理大规模数据集。在这个过程中,我们将详细讲解Hadoop 3.1.0在Windows上的安装过程以及相关...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它是由Apache软件基金会开发并维护的,旨在实现高效、可扩展的数据处理能力。Hadoop的核心由两个主要组件构成:Hadoop Distributed ...