`

大数据hadoop入门之hadoop家族产品详解

阅读更多

 

 

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来说将是件多么美妙的事情!

闲话扯得稍微多了点,回归整体。这篇准备给大家hadoop新入门的朋友分享一些hadoop的基础知识——hadoop家族产品。通过对hadoop家族产品的认识,进一步帮助大家学习好hadoop!同时,也欢迎大家提出宝贵意见!



  

一、Hadoop定义

Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。

 

二、Hadoop产品



 

 

HDFS(分布式文件系统):

它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提高等,如图是HDFS的基础架构。



 

 

MapReduce/Spark/Storm(并行计算架构):

1、数据处理方式来说分离线计算和在线计算:

角色

描述

MapReduce

MapReduce常用于离线的复杂的大数据计算

Storm

Storm用于在线的实时的大数据计算,Storm的实时主要是一条一条数据处理;

Spark

可以用于离线的也可用于在线的实时的大数据计算,Spark的实时主要是处理一个个时间区域的数据,所以说Spark比较灵活。

 

2、数据存储位置来说分磁盘计算和内存计算:

角色

描述

MapReduce

数据存在磁盘中

Spark和Strom

数据存在内存中

 

Pig/HiveHadoop编程):

角色

描述

Pig

是一种高级编程语言,在处理半结构化数据上拥有非常高的性能,可以帮助我们缩短开发周期。

Hive

是数据分析查询工具,尤其在使用类SQL查询分析时显示出极高的性能。可以在分分钟完成ETL要一晚上才能完成的事情,这就是优势,占了先机!

 

HBase/Sqoop/Flume(数据导入与导出):

角色

描述

HBase

是运行在HDFS架构上的列存储数据库,并且已经与Pig/Hive很好地集成。通过Java API可以近无缝地使用HBase

Sqoop

设计的目的是方便从传统数据库导入数据到Hadoop数据集合(HDFS/Hive)

Flume

设计的目的是便捷地从日志文件系统直接把数据导入到Hadoop数据集合(HDFS)中。

以上这些数据转移工具都极大地方便了使用的人,提高了工作效率,把精力专注在业务分析上。

 

ZooKeeper/Oozie(系统管理架构):

角色

描述

ZooKeeper

是一个系统管理协调架构,用于管理分布式架构的基本配置。它提供了很多接口,使得配置管理任务简单化。

Oozie

Oozie服务是用于管理工作流。用于调度不同工作流,使得每个工作都有始有终。这些架构帮助我们轻量化地管理大数据分布式计算架构。

 

Ambari/Whirr(系统部署管理):

角色

描述

Ambari

帮助相关人员快捷地部署搭建整个大数据分析架构,并且实时监控系统的运行状况。

Whirr

Whirr的主要作用是帮助快速地进行云计算开发。 

 

Mahout(机器学习):

Mahout旨在帮助我们快速地完成高智商的系统。其中已经实现了部分机器学习的逻辑。这个架构可以让我们快速地集成更多机器学习的智能。

 

  • 大小: 39.7 KB
  • 大小: 63.3 KB
  • 大小: 83.7 KB
分享到:
评论

相关推荐

    大数据技术之Hadoop(入门).docx

    ### 大数据技术之Hadoop(入门)知识点详解 #### 第1章 大数据概论 ##### 1.1 大数据概念 ...以上内容涵盖了Hadoop入门所需的基础知识和技术要点,对于想要深入了解大数据领域的读者来说是非常有用的参考资料。

    尚硅谷大数据技术之Hadoop

    1. WordCount程序:Hadoop入门的经典例子,统计文本文件中各个单词出现的次数。 2. 自定义InputFormat和OutputFormat:展示如何根据数据格式定制输入输出格式,以适应不同的数据源和需求。 3. 键值对处理:通过...

    Hadoop大数据开发基础-PPT课件

    【Hadoop大数据开发基础-PPT课件】是一个涵盖了Hadoop生态系统入门知识的教育资源,适合初学者和希望深入了解大数据处理技术的IT专业人士。本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。...

    大数据 Hadoop 框架

    ### 大数据与Hadoop框架知识点详解 #### 一、大数据概述 大数据是指那些规模超出了常规软件工具处理能力的数据集。这些数据集的特点可以用3V来概括:**大量(Volume)**、**高速(Velocity)**、**多样化(Variety...

    hadoop从入门到精通课件pdf

    《Hadoop从入门到精通》课程的PDF课件是一份全面了解和掌握Hadoop技术体系的宝贵资源。这个课程涵盖了从Hadoop的基础概念到高级应用的方方面面,旨在帮助学习者逐步提升对Hadoop的理解和实战能力。以下是根据提供的...

    大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

    以下是一些关于标题和描述中提及的关键技术的知识点详解: 1. **Hadoop**: Hadoop 是一个开源的分布式计算框架,核心由 HDFS(Hadoop Distributed File System)和 MapReduce 组成。HDFS 提供高容错性的存储系统...

    hadoop入门01.pdf

    综上所述,大数据和Hadoop入门涉及的知识点广泛,从大数据的概念、特点、应用场景、发展前景到Hadoop的概述、发展历史、生态圈组成、虚拟机网络配置等都需要全面了解和掌握。随着技术的不断发展,大数据和Hadoop技术...

    Hadoop从入门到上手企业开发

    035 详解HDFS API之FileSystem方式基本操作一 036 HDFS Java API 两种方式介绍及使用URL API详解一 037 使用URL API详解二 038 使用HDFS FileSystem API 详解 039 HDFS文件系统读写流程及HDFS API两种方式读取文件 ...

    Apache Hadoop2.x 安装入门详解 PDF

    本教程将详细讲解Apache Hadoop 2.x的安装过程,帮助初学者快速入门。 一、Hadoop的体系结构 Hadoop的核心由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,能...

    hadoop入门共21页.pdf.zip

    【Hadoop入门基础详解】 Hadoop,作为大数据处理的核心框架,是Apache软件基金会下的一个开源项目,主要用于分布式存储和计算。这份"hadoop入门共21页.pdf"文档,虽然只有短短21页,但应该涵盖了Hadoop的基础概念、...

    大数据开发入门指南:从概念到实践.docx

    ### 大数据开发入门指南:从概念到实践 #### 一、引言 随着数字化时代的到来,大数据成为了各个行业中至关重要的资源。对于企业而言,如何有效地处理和分析这些海量数据,成为了提升竞争力的关键因素之一。大数据...

    hadoop大数据

    《Hadoop大数据详解》 Hadoop作为开源大数据处理框架,是大数据领域的重要组成部分,它以其分布式存储和计算能力,为企业和个人提供了处理海量数据的有效手段。本文将深入探讨Hadoop的相关知识,包括其核心组件HDFS...

    Hadoop入门手册

    《Hadoop入门手册》的.chm格式文件可能包含详细的章节划分,如“Hadoop简介”、“HDFS详解”、“MapReduce实战”、“Hadoop生态组件”和“实战案例分析”等,每个章节都配有实例和练习,帮助读者巩固所学知识。...

    Hadoop开发者入门-带书签文字版

    Hadoop入门手册的高清版确保了阅读体验,清晰的文字和图表有助于理解复杂的概念。书签版则使得在大量内容中快速定位特定章节变得轻松,这对于深入学习和查找特定知识点极其重要。以下是对Hadoop开发者入门中主要知识...

    hadoop入门(1)VMware安装

    ### Hadoop入门(1):VMware安装 在IT领域,特别是大数据处理方面,Hadoop已经成为了一种不可或缺的技术。对于初学者来说,掌握Hadoop的基本安装与配置是至关重要的第一步。本文将根据“hadoop入门(1)VMware安装...

    非常好的hadoop入门资料

    ### Hadoop 入门知识点详解 #### Hadoop简介 Hadoop是一种开源软件框架,用于分布式存储和处理大型数据集。该框架由Apache Software Foundation维护,是大数据处理领域的重要工具之一。Hadoop的核心组件包括HDFS...

    大数据精选入门指南,包括大数据学习路线、大数据技术栈思维导图

    RDD使用算子详解 Spark运行模式与作业提交 Spark 累加器与广播信号 基于Zookeeper搭建Spark高可用服务 火花 SQL: 日期帧和数据集 结构化API的基本使用 Spark SQL 外部数据源 Spark SQL常用聚合函数 Spark SQL JOIN...

Global site tag (gtag.js) - Google Analytics