本文来源微信:技术为王 文中综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。
Cloudera:加速数据分析
Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问题:数据仓库系统处理信用卡交易数据耗时长,不能满足公司向消费者和餐馆进行个性化推荐的业务需求。
Edo负责基础架构和信息系统的高级副总裁TimGarnto表示:“处理每天的数据,要花费27小时,所以,任务是根本完不成的。”2013年,Edo用Hadoop集群替换了基于PostgreSQL的系统,为公司构建了数据资源池。
公司每天会收集来自全美5千万次零售交易,把数据放到有20个节点的Cloudera发行的Hadoop集群上,使用Pentaho数据集成工具。从银行和信用卡公司收集来的数据经过处理,通过预测模型向持有银行卡或信用卡的用户推荐优惠券等内容。优惠券信息由Edo的合作伙伴每周向客户发送,自动和用户的消费行为匹配。
Garnto介绍到,因为模型的复杂度不同,Edo的数据分析师可以在几分钟或几小时内处理数据,这在以前,是做不到的。
不过在数据池搭建上,公司也遇到困难,最初,只有一个IT人员有Hadoop和MapReduce编程框架的经验。公司组织了对内部员工的培训,但新的MapReduce编程等于让员工放弃了关系型数据库的方法,公司在升级流程方面花费了很多时间。
要让进入系统的生数据保持一致性,并生成标准化分析数据集也要花费一定的时间。Edo目前拥有的450亿条记录,总量255TB的数据对公司来说是核心资产,所以Garnto要倍加小心地管理,增添新的Hadoop生态系统技术,因为增加哪怕一项很小的技术,都会对系统工作的方式产生影响。Garnto因此说,在我们面临的所有挑战中,这是最有意思的,我们要富有远见地规划好集群开发的未来。
Hortonworks:降低硬件成本
收集和处理网络、收集和物联网活动数据的Webtrends是另一个数据资源池用户。这是一家波兰公司,它在去年7月部署了Hortonworks发行的Hadoop集群,在今年年初正式运行,最初是为了支持一款叫做Explore的产品,让公司市场人员对客户数据进行即时分析。公司负责产品架构的总监PeterCrossley表示,在60个节点的集群上,每个quarter上要添加500TB的数据,加起来有1.28PB。
Webtrends计划使用Hadoop平台替换原有存储系统,通过使用Kafka信息队列技术和自动处理脚本,网络点击数据可以进入集群,能够在20到40毫秒之间进行数据分析。报表和分析基本上是实时的,比旧系统要快很多。Hadoop集群也支持更高级的分析,硬件成本要降低25%到50%。
使用Hadoop数据资源池,意味着公司管理和使用信息的意识要改变。之前,公司要首先同数据仓库中广泛的数据列中构建通用的数据报表。
公司还要考虑数据资源池架构和数据治理流程,以更好地管理Hadoop集群的数据。进入系统的生数据结构松散,但在数据治理上有严格的规定。另外,公司将Hadoop集群分成了三个独立的层,一层负责生数据,第二层负责增加的日常数据集,第三层负责第三方信息。每一层都有自己的数据分类和治理政策,因数据集不同而各异。
MapR:有序的数据存储
基于云的预测分析软件供应商Razorsight的CTO Suren Nathan在谈到建立和使用Hadoop数据资源池时,也提到了要非常“有纪律、有组织”。如果不然,系统就会变成一个失控的垃圾场。
Razorsight为电信行业提供云基础的分析服务,在2014年第二季度开始使用MapR发行的Hadoop集群。来自代理的客户、运营和网络数据通过自建的提取工具加载进系统,通过Spark处理引擎提供给数据科学家,该集群有5个产品节点,120TB的存储容量。
像Webtrends一样,Razorsight把数据资源池分为三个部分,一部分负责6个月以内的数据,一部分负责时间更长但仍然有用的数据,最后一部分负责不再使用但需要保存的数据。目前,在前两个部分,公司有超过20TB的数据。为了使系统运行的更顺畅,公司聘请了有数据治理和分布系统部署经验的新员工,现有员工负责Hadoop、Spark和相关技术。
Hadoop集群每TB数据的成本是2千美元,是IBMNetezza数据仓库系统的十分之一,不过Razorsight最开始建立Hadoop集群只是为了数据存储,分析模型和数据可视化仍然是在旧系统中完成,部分原因是因为Netezza硬件和IBM的SPSS分析软件绑定。Nathan预计今年年底能够完成可视化层和分析资源池想Hadoop数据资源池架构的迁移。
分享到:
相关推荐
04_Hadoop_概论_大数据的应用场景.mp4 06_Hadoop_概论_未来工作内容.mp4 07_Hadoop_入门_课程介绍.mp4 11_Hadoop_入门_Hadoop优势.mp4 13_Hadoop_入门_HDFS概述.mp4 14_Hadoop_入门_YARN概述.mp4 16_Hadoop_入门_...
本系统利用大数据技术,合理的为用户做出推荐,推荐的结果可靠程度很高,这就是我的优势所在,因为它和一般的推荐系统的推荐算法不太一样,我的推荐算法是利用Hadoop技术写的,我们可以利用Hadoop集群的高吞吐量,一...
大数据之Hadoop学习教程+笔记合计_超详细完整.zip
HBase与HDFS紧密集成,能够处理PB级别的数据,是大数据应用中的实时数据访问层。 Sqoop是一款用于在Hadoop和传统数据库之间导入导出数据的工具。它简化了批量数据迁移过程,允许用户在关系型数据库和Hadoop之间进行...
在大数据的世界里,Hadoop是不可或缺的一个核心组件,它为海量数据处理提供了高效、可靠的解决方案。本主题将深入探讨Hadoop在数据分析中的应用及其生态系统的关键技术。 首先,我们需要理解“大数据”的概念。...
(2)修改 module、software 文件夹的所有者 (1)查询是否安装 java 软件: (2)如果安装的版本低于 1.7,卸载该 jdk: (1)先获
首先,大数据技术与应用专业的核心课程是培养学生在大数据应用系统开发方面的核心技能,包括数据采集、分析、处理和可视化等方面的能力。为了实现这一点,课程教学目标包括了解大数据行业发展历史和架构、掌握分布式...
技术领域:大数据领域Hadoop技能学习 技术关键词:大数据、Hadoop 内容:大数据小白晋升之路学习必备 用途:学习
大数据整理hadoop/hive
大数据之hadoop,spart全套全技术栈视频课程,包含spark,hadoop,storm,kafka,mllib等组件的安装,编程等,依次从基础,进阶直到实际实践。
1.大数据背景介绍 2. HADOOP体系架构 3. 基于HADOOP的大数据产品分析 4. 基于HADOOP的大数据行业应用分析 5.东软基于HADOOP的大数据应用建议
大数据与Hadoop是当前信息技术领域中的核心概念,它们共同推动了数据处理和分析能力的革命。...随着数据的持续增长和新技术的涌现,大数据与Hadoop的应用将继续深化,为未来的信息化社会带来更大的变革。
其中,商业发行版Hadoop多为原生Apache Hadoop的集群模式下的优化版,除少数社区版外,商业发行版大多需要付费使用,且对于初学者而言使用难度较大。因此,本教程主要采用Apache Hadoop进行安装与使用方面教学。 ...
大数据Hadoop视频教程大数据Hadoop视频教程大数据Hadoop视频教程
大数据处理框架:Hadoop:大数据与Hadoop简介.docx
其中,Hadoop是批量处理大数据的代表性工具,尤其在雅虎、中国移动研究院、Facebook和淘宝等公司中得到了广泛应用,它们利用Hadoop进行数据分析、内容优化、广告定位等各种业务。 Hadoop的核心组件包括分布式文件...
大数据Hadoop平台监控、预警及自动化的应用场景包括: 1. 大数据分析和处理。 2. 实时流式数据处理。 3. 数据仓库和商业智能。 4. 云计算和大数据中心。 5. 物联网和智能家居。 大数据Hadoop平台监控、预警及...
大数据-Hadoop环境搭建(单机) 本文档旨在指导读者搭建大数据Hadoop环境,基于CentOS 6.8操作系统,使用JDK 1.8和Hadoop 2.8.2版本。文档涵盖了服务器选择、相关配置、Hadoop环境安装、JDK环境配置、Hadoop环境配置...