在itpub的hadoop论坛中看到一则hadoop的应用说明,觉得不错,转载之。
地址:http://www.itpub.net/thread-1458086-1-1.html
在实际生产中,hadoop是怎么应用的?
1.数据是怎么进入到HADOOP的?
2.HADOOP在现在数据仓库中扮演的是一个什么样的角色?
3.hadoop是不是需要二次开发?
4.从HADOOP有什么缺点?能实现复杂的业务计算吗?
第一点:
在数据仓库中,有个很重要的组成部分叫做ETL,也就是数据的抽取,清洗,装载。
每个数据仓库都会有自己的ETL工具,我们公司目前是自己开发的一套ETL工具
目的是:从各个异构的环境中抽取数据,做简单的清洗,并同步到不同的目标中
HADOOP是我们的目标之一
拿前台网站来说,他们的数据一般存储在oracle中,我们的ETL工具通过OCI将数据从源系统中抽取出来直接落地在HDFS上
这些数据可以同步到其他目标系统,也可以直接通过MAPRED或者HIVE进行运算
第二点:
HADOOP在一些比较成熟的公司里面作为数据存储中心,数据计算中心,数据开放中心
在使用HADOOP前,我们也使用了其他的分布试的文件系统,当决定使用HADOOP后,数据全部迁移到HDFS上
以前的计算任务是在RAC或者GP上的,也会慢慢迁移到HADOOP上
数据开发是DW很重要的一个作用,计算好的数据和分析结果要产生价值就要开发给其他部门
HADOOP的HDFS和HIVE是数据开放的两件利器
第三点:
到底HADOOP需要不需要二次开发这个问题和公司的技术能力和对HADOOP定位有关系
因为二次开发后会面对个问题,就是HADOOP社区也是很活跃的,会经常有些PATCH和新的版本出来,那么我们自己开发的版本需要不需要这些PATCH,如果需要那么这些PATCH会不会和目前的版本有冲突,这需要大量的测试,工作量还是比较大的
所以建议技术能力不是太强的公司,投入不会那么大的公司,还是跟着社区跑
第四点:
HADOOP和以前的关系型数据库或者分布式的数据库差距比较大
开发人员想要转到HADOOP上是需要一段时间的
MAPRED可以实现任务复杂的应用,而且对于一些应用来说效率可能会比数据库要强很多很多,不过开发的效率比较低
HIVE是MAPRED的SQL接口,通过HIVE可以实现快速开发,但是HIVE对SQL支持有限,并且效率也不总是那么高
如果HIVE开发人员也建议学习学习MAPRED,武器多一些,打起仗来也更得心应手
分享到:
相关推荐
java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,hadoop应用java WriteHDFS实现,...
这个"**Hadoop简单应用案例**"涵盖了Hadoop生态系统中的多个关键组件,包括MapReduce、HDFS、Zookeeper以及Hive,这些都是大数据处理的核心工具。下面将详细讲解这些知识点。 1. **MapReduce**:MapReduce是Hadoop...
《Hadoop应用开发与案例实战(慕课版)》是一门深入探讨大数据处理技术的课程,主要聚焦在Hadoop平台上进行应用开发的实践操作。这门课通过丰富的PPT课件,旨在帮助学习者理解Hadoop的核心概念,掌握其开发技巧,并...
"基于Eclipse的Hadoop应用开发环境配置" 基于 Eclipse 的 Hadoop 应用开发环境配置是指在 Eclipse 中配置 Hadoop 开发环境,以便开发和运行 Hadoop 应用程序。本节将对基于 Eclipse 的 Hadoop 应用开发环境配置进行...
,Hadoop 技术已经在互联网领域得到了广泛的应用。互联网公司往往需要 存储海量的数据并对其进行处理,而这正是Hadoop 的强项。如Facebook 使用Hadoop 存储 内部的日志拷贝,以及数据挖掘和日志统计;Yahoo !利用...
这个压缩包文件“Hadoop应用及相关”显然包含了关于Hadoop的核心信息,包括安装教程和可能的PPT资源,这将对学习和理解Hadoop生态系统提供极大的帮助。下面我们将深入探讨Hadoop及其主要组件MapReduce。 Hadoop是...
hadoop应用开发实例教程之Greenplum架构,由北风网提供,hhadoop应用开发实例教程主要介绍什么是Greenplum;Greenplum体系结构;Greenplum高可用性架构。安装Greenplum:配置环境;安装并初始化GPDB系统;启停数据库...
标题中的“Hadoop应用程序”指的是基于Hadoop框架开发的应用,这个框架主要用于大数据处理。Hadoop是Apache软件基金会下的一个开源项目,它提供了分布式文件系统(HDFS)和数据处理工具(MapReduce)来处理和存储大...
标题中的“大数据云计算技术 Hadoop应用浅析”指的是对Hadoop这一大数据处理框架在云计算环境下的应用进行简要探讨。Hadoop是Apache软件基金会开发的一个开源项目,它为大规模数据处理提供分布式计算解决方案。 ...
本篇文章将深入探讨Hadoop应用开发技术,帮助你更好地理解和掌握这一潮流的工具。 Hadoop是Apache软件基金会开源的一个分布式计算框架,它允许在廉价硬件上进行大规模数据处理。Hadoop的核心由两个主要组件构成:...
【Hadoop 应用误解详解】 1. **误解:Hadoop 可以做任何事情** **正解:** Hadoop 并非万能解决方案。虽然它的设计目标是为了处理大量非结构化和半结构化数据,但并不意味着它可以无缝替代所有现有系统。如同早期...
《大数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS...
"Ubuntu下开发Eclipse下的Hadoop应用" 本文档详细记录了如何在Ubuntu下安装Eclipse,并如何在Eclipse中安装Hadoop插件,最后运行程序。下面将对标题、描述、标签和部分内容进行详细解释和分析。 标题: Ubuntu下...
【Hadoop高级应用四】 Hadoop,作为Apache基金会的核心项目之一,是一个开源的分布式计算框架,旨在处理和存储海量数据。它的设计灵感来源于Google的MapReduce编程模型和GFS(Google文件系统)。Hadoop的核心组件...
Hadoop 应用案例详解 Hadoop 作为一种大数据处理技术,已经广泛应用于多个领域,包括电商、搜索引擎、社交媒体等。本文将通过对阿里巴巴、百度、腾讯和中国移动四家公司的 Hadoop 应用案例进行分析,了解 Hadoop 在...
在深入探讨"Hadoop高级应用三"这一主题之前,我们首先要理解Hadoop的基础概念。Hadoop是Apache基金会开发的一个开源项目,旨在提供一个可扩展、可靠的分布式计算框架,它能够处理和存储海量数据。Hadoop的核心组件...
深入云计算:Hadoop应用开发实战详解(修订版)
本篇将详细介绍如何配置基于Eclipse的Hadoop应用开发环境。 首先,我们需要了解Hadoop的基本构成。Hadoop主要由两个核心部分组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是分布式文件系统,用于...
### 在Windows上使用Eclipse编写Hadoop应用程序 #### 前言 随着大数据技术的不断发展,Hadoop作为处理大规模数据集的重要工具之一,在企业和研究机构中得到了广泛应用。Hadoop主要由两个部分组成:Hadoop分布式...
本pdf包含Hadoop应用开发技术详解书完整版一共425页,这是学习Hadoop很不错的教材,且包含书中的代码.文件太大100M,故下载文件为百度云分享.永久有效