1.Hadoop 与BI
2009年,Cloudera发表Analyzing Apache logs with Pig文章[7]。
2010年,Cloudera发表Hadoop与BI思考的文章,给出了When/How to integrate Hadoop with BI的5条建议[6]。
2011年8月,CACM发表了BI综述文章[1],总结了BI的组成部分和关键技术,面临大数据的挑战,提出了最新的BI架构,见图1。

Figure 1:BI Architecture
本文只针对MapReduce Engine部分做相关讨论,后续会对Complex Event Processsing Engine、Text Analytic Engine、Enterprise Search Engine(BI Search)做一些分析。
2.什么是Hadoop?
Hadoop开源软件支持在普通PC集群上进行可靠的,伸缩性的,分布式的计算处理,可以处理TB级甚至PB级的非结构化和结构化数据,将大工作量分解成集群中各个普通机上更小的数据块,以达到更快地处理的效果。Hadoop是相关技术的框架集合——HDFS、HBase、Cassandra、Hive、Pig、ZooKeeper、Mahout、Hcatalog、Hue,详见图2。

Figure 2:Cloudera Hadoop Ecosystem[2]
3. Two Distinct Hadoop Use cases
现在,Hadoop用于两个不同用例(Use Case)[3][4](见图3),其中涉及Hadoop技术见图4。
Data Processing: Hadoop ETL功能,包括预处理,过滤,转换,通过Pig/Hive/Oozie/Sqoop等工具实现。
Advanced Analytics:大规模的Events日志数据或Content分析处理, 包括Data Mining功能,例如call records, behavioral analysis, social network analysis, clickstream data,next-best action, customer experience optimization, social media analytics等 [5], 通过Mahout来实现。

Figure 3:Two Core Use Cases Common Across Many Industries

Figure 4:Data Processing and Advanced Analytics Tools[4]
4.Hadoop BI architecture
从Cloudera的观点(图5),Hadoop扮演了ETL和BI Analytics双重角色,其中ETL包括对结构化和非结构化的数据处理(是否用hadoop处理结构化的数据,视情况而定)。Hadoop BI Architecture可参考图6。

Figure 5:Where Does Hadoop Fit in the Enterprise DataStack?[2]

Figure 6:Business Intelligence After Adopting Apache Hadoop[2]
5 结论
本文讨论了BI with Hadoop的架构,Hadoop丰富了BI的ETL(Data Processing)和Data Mining(Advanced Analytics)功能。但是现在大数据处理平台也体现多样化,例如MongoDB,Cassandra等NoSQL平台,Aster/ Greenplum/Oracle等Vendor的MapReduce应用产品,私有云/共有云/混合云等等,将来的云BI 会怎样呢?架构又是如何呢?以后再做详细分析。
Reference:
[1] An Overview of Business Intelligence Technology
[2] How Apache Hadoop is Revolutionizing Business Intelligence and Data Analytics
[3] Hadoop Applied
[4] Hadoop, Big Data, and Enterprise Business Intelligence
[5] 10 Common Hadoop-able Problems
[6] Considerations for Hadoop and BI
[7] Analyzing Apache logs with Pig
Updated on 2012/03/14

- 大小: 51.7 KB

- 大小: 44.5 KB

- 大小: 63 KB

- 大小: 79.1 KB

- 大小: 62.1 KB

- 大小: 42.5 KB
分享到:
相关推荐
2. 分布式架构(Distributed Architecture):利用云计算或大数据平台,如Hadoop,实现分布式计算和存储,提升处理大规模数据的能力。 3. 微服务架构(Microservices Architecture):将BI系统拆分为多个独立的服务...
A Hadoop-based architecture offers a radical solution, as it is designed specifically to handle huge sets of unstructured data. This book takes you through the journey of building a modern data lake...
Introduction to Hadoop, Architecture, Ecosystem and Microsoft HDInsight Getting to know Hadoop 2.0 and the innovations it provides like HDFS2 and YARN Quickly installing, configuring, and monitoring ...
Teradata数据库采用的独特并行架构为Networked Data Architecture(NDA),支持大规模并行处理(MPP),包含控制节点、计算节点、存储节点及高效网络连接,可实现数据在多个节点间高效分布处理。在数据仓库方面,...
在新的数据架构中,动态数据仓库还涉及到大数据处理和流计算技术,如Hadoop、Spark等,这些技术能够处理大规模、高频率的数据流,以满足实时分析的需求。此外,随着云计算的发展,云数据仓库提供了弹性的存储和计算...
5. **可视化与报告**:为了便于理解和交流,RISIS平台通常集成图形化用户界面(GUI)和数据可视化工具,如Tableau、PowerBI或D3.js,帮助用户生成交互式图表和报告。 6. **用户接口**:一个直观的用户界面是RISIS...
此外,由于通信行业的BI系统发展遇到瓶颈,指标混乱,管理无序,迫切需要对数据仓库进行重构。随着亚信战略转型,对金融、电商、政企等大市场的关注度提高,模型建设的需求日益增加,因此,构建一个高效的大数据模型...
7. SOA:Service-Oriented Architecture,面向服务的架构,是一种设计和构建软件系统的方法,强调将功能封装为独立的服务,便于重用和组合。 8. IoT:Internet of Things,物联网,是指物体通过网络互相连接并交换...
商务智能(Business Intelligence, BI)涉及收集、分析和解释大量业务数据,以提供洞察力和决策支持。信息部门是负责组织内部信息技术管理的团队,而信息主管(CIO)是这个部门的负责人,负责制定IT战略并确保其符合...
大数据参照架构(Big Data Reference Architecture, BDR架构)是基于NIST和JTC1/SC32的研究成果,结合大数据的理解和分析构建的通用模型。它由“一种概念体系”和“二个价值链维度”组成。 1. **概念体系**:BDR...