大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来说将是件多么美妙的事情!
闲话扯得稍微多了点,回归整体。这篇准备给大家hadoop新入门的朋友分享一些hadoop的基础知识——hadoop家族产品。通过对hadoop家族产品的认识,进一步帮助大家学习好hadoop!同时,也欢迎大家提出宝贵意见!
一、Hadoop定义
Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。
二、Hadoop产品
HDFS(分布式文件系统):
它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提高等,如图是HDFS的基础架构。
MapReduce/Spark/Storm(并行计算架构):
1、数据处理方式来说分离线计算和在线计算:
角色 |
描述 |
MapReduce |
MapReduce常用于离线的复杂的大数据计算 |
Storm |
Storm用于在线的实时的大数据计算,Storm的实时主要是一条一条数据处理; |
Spark |
可以用于离线的也可用于在线的实时的大数据计算,Spark的实时主要是处理一个个时间区域的数据,所以说Spark比较灵活。 |
2、数据存储位置来说分磁盘计算和内存计算:
角色 |
描述 |
MapReduce |
数据存在磁盘中 |
Spark和Strom |
数据存在内存中 |
Pig/Hive(Hadoop编程):
角色 |
描述 |
Pig |
是一种高级编程语言,在处理半结构化数据上拥有非常高的性能,可以帮助我们缩短开发周期。 |
Hive |
是数据分析查询工具,尤其在使用类SQL查询分析时显示出极高的性能。可以在分分钟完成ETL要一晚上才能完成的事情,这就是优势,占了先机! |
HBase/Sqoop/Flume(数据导入与导出):
角色 |
描述 |
HBase |
是运行在HDFS架构上的列存储数据库,并且已经与Pig/Hive很好地集成。通过Java API可以近无缝地使用HBase。 |
Sqoop |
设计的目的是方便从传统数据库导入数据到Hadoop数据集合(HDFS/Hive)。 |
Flume |
设计的目的是便捷地从日志文件系统直接把数据导入到Hadoop数据集合(HDFS)中。 |
以上这些数据转移工具都极大地方便了使用的人,提高了工作效率,把精力专注在业务分析上。
ZooKeeper/Oozie(系统管理架构):
角色 |
描述 |
ZooKeeper |
是一个系统管理协调架构,用于管理分布式架构的基本配置。它提供了很多接口,使得配置管理任务简单化。 |
Oozie |
Oozie服务是用于管理工作流。用于调度不同工作流,使得每个工作都有始有终。这些架构帮助我们轻量化地管理大数据分布式计算架构。 |
Ambari/Whirr(系统部署管理):
角色 |
描述 |
Ambari |
帮助相关人员快捷地部署搭建整个大数据分析架构,并且实时监控系统的运行状况。 |
Whirr |
Whirr的主要作用是帮助快速地进行云计算开发。 |
Mahout(机器学习):
Mahout旨在帮助我们快速地完成高智商的系统。其中已经实现了部分机器学习的逻辑。这个架构可以让我们快速地集成更多机器学习的智能。
相关推荐
### 大数据技术之Hadoop(入门)知识点详解 #### 第1章 大数据概论 ##### 1.1 大数据概念 ...以上内容涵盖了Hadoop入门所需的基础知识和技术要点,对于想要深入了解大数据领域的读者来说是非常有用的参考资料。
1. WordCount程序:Hadoop入门的经典例子,统计文本文件中各个单词出现的次数。 2. 自定义InputFormat和OutputFormat:展示如何根据数据格式定制输入输出格式,以适应不同的数据源和需求。 3. 键值对处理:通过...
【Hadoop大数据开发基础-PPT课件】是一个涵盖了Hadoop生态系统入门知识的教育资源,适合初学者和希望深入了解大数据处理技术的IT专业人士。本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。...
### 大数据与Hadoop框架知识点详解 #### 一、大数据概述 大数据是指那些规模超出了常规软件工具处理能力的数据集。这些数据集的特点可以用3V来概括:**大量(Volume)**、**高速(Velocity)**、**多样化(Variety...
《Hadoop从入门到精通》课程的PDF课件是一份全面了解和掌握Hadoop技术体系的宝贵资源。这个课程涵盖了从Hadoop的基础概念到高级应用的方方面面,旨在帮助学习者逐步提升对Hadoop的理解和实战能力。以下是根据提供的...
以下是一些关于标题和描述中提及的关键技术的知识点详解: 1. **Hadoop**: Hadoop 是一个开源的分布式计算框架,核心由 HDFS(Hadoop Distributed File System)和 MapReduce 组成。HDFS 提供高容错性的存储系统...
综上所述,大数据和Hadoop入门涉及的知识点广泛,从大数据的概念、特点、应用场景、发展前景到Hadoop的概述、发展历史、生态圈组成、虚拟机网络配置等都需要全面了解和掌握。随着技术的不断发展,大数据和Hadoop技术...
035 详解HDFS API之FileSystem方式基本操作一 036 HDFS Java API 两种方式介绍及使用URL API详解一 037 使用URL API详解二 038 使用HDFS FileSystem API 详解 039 HDFS文件系统读写流程及HDFS API两种方式读取文件 ...
本教程将详细讲解Apache Hadoop 2.x的安装过程,帮助初学者快速入门。 一、Hadoop的体系结构 Hadoop的核心由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,能...
【Hadoop入门基础详解】 Hadoop,作为大数据处理的核心框架,是Apache软件基金会下的一个开源项目,主要用于分布式存储和计算。这份"hadoop入门共21页.pdf"文档,虽然只有短短21页,但应该涵盖了Hadoop的基础概念、...
### 大数据开发入门指南:从概念到实践 #### 一、引言 随着数字化时代的到来,大数据成为了各个行业中至关重要的资源。对于企业而言,如何有效地处理和分析这些海量数据,成为了提升竞争力的关键因素之一。大数据...
《Hadoop大数据详解》 Hadoop作为开源大数据处理框架,是大数据领域的重要组成部分,它以其分布式存储和计算能力,为企业和个人提供了处理海量数据的有效手段。本文将深入探讨Hadoop的相关知识,包括其核心组件HDFS...
《Hadoop入门手册》的.chm格式文件可能包含详细的章节划分,如“Hadoop简介”、“HDFS详解”、“MapReduce实战”、“Hadoop生态组件”和“实战案例分析”等,每个章节都配有实例和练习,帮助读者巩固所学知识。...
Hadoop入门手册的高清版确保了阅读体验,清晰的文字和图表有助于理解复杂的概念。书签版则使得在大量内容中快速定位特定章节变得轻松,这对于深入学习和查找特定知识点极其重要。以下是对Hadoop开发者入门中主要知识...
### Hadoop入门(1):VMware安装 在IT领域,特别是大数据处理方面,Hadoop已经成为了一种不可或缺的技术。对于初学者来说,掌握Hadoop的基本安装与配置是至关重要的第一步。本文将根据“hadoop入门(1)VMware安装...
### Hadoop 入门知识点详解 #### Hadoop简介 Hadoop是一种开源软件框架,用于分布式存储和处理大型数据集。该框架由Apache Software Foundation维护,是大数据处理领域的重要工具之一。Hadoop的核心组件包括HDFS...
RDD使用算子详解 Spark运行模式与作业提交 Spark 累加器与广播信号 基于Zookeeper搭建Spark高可用服务 火花 SQL: 日期帧和数据集 结构化API的基本使用 Spark SQL 外部数据源 Spark SQL常用聚合函数 Spark SQL JOIN...