`

如何入门hadoop

 
阅读更多

 

摘于 知乎

 

 

我也是做毕业设计才开始接触Hadoop,折腾了蛮久,看了各种各类的书,对于如何入手也有些感触。我不是Hadoop专家,也只是一个初学者,这里我也只是就自己的学习体会,站在初学者的角度谈一下如何入门。)
首先我觉得因为思考这样一个问题:Hadoop对于我们来讲,是一种工具,那么Hadoop帮助我们解决了什么问题?或者换个角度想,没有Hadoop,我们做同样一项工作会增加什么任务?(想清楚了这问题,心里就会形成Hadoop到底是什么,能做什么的概念。初学者在最初时候很容易框架当成负担,但实际上他应该是工具。明白了Hadoop这个神器的美妙后,你就可以开始心怀期待的去慢慢驾驭它了。)
初学Hadoop,最基础的也就是HDFS和Mapreduce了,HDFS是一个分布式存储文件系统,Mapreduce是一个分布式计算的框架,两者结合起来,就可以很容易做一些分布式处理任务了。作为入门,先只需要学习这两样就够了。
好了,那就开始讲一下怎么学习这两样。
1、首先你肯定要搭建好环境。(这些网上教程很多。)然后,找一篇讲Hdfs java API的文章HDFS API详解把其中的例子跑一下,感受一下就可以了。(只需要只要有哪些API,大概怎么用,以后要用,直接在里面找,或者查看API文档。)
2、然后就是Mapreduce了。说简单一点,这就是一个编程接口,这个框架帮我们抽象了很多分布式处理的细节,我们只需要简单的编写mapreduce任务就可以了。要想编写mapreduce程序,首先你应该弄清楚mapreduce的基本流程Hadoop -- MapReduce过程,然后要清楚,我们自己编程写mapreduce任务需要编写哪些东西(就是哪些部分是可以重写,应该重写的),这个可以参考刘鹏的《实战Hadoop》,里面细致的剖析了wordcount程序的运行过程,并说明了哪些函数是我们编程需要实现的。看懂了这些(最好要运行一些这些程序),你基本就可以写一些mapreduce程序,处理一些简单的任务了。(至于mapreduce高级运行,比如定制数据类型、patitioner、组合任务等等这些,你只要知道有这些就可以了,需要用的时候再仔细看。)

还有谷歌的那篇MapReduce_Simplified_Data_Processing_on_Large_Clusters可以多读几遍,可以解决你心中对于mapreduce框架的很多疑问。另外给个链接MapReduce的核心资料索引

我觉得知道了这些,基本就是入门了。然后再要深入学习,你就可以根据自己的需要去学了(这个时候你应该也知道该怎么学了)。至于hadoop衍生的那些HIVE、Pig等等,我觉得只需要知道有那些东西,知道那些能做什么就可以了。因为我们的目的只是把Hadoop作为工具。如果是其他目的,你可以看看mapreduce源码分析之类吧。我暂时没搞这些,不懂,就不多说了。

分享到:
评论

相关推荐

    【74】2017最新大数据10个小时快速入门hadoop3集群实战视频教程 .txt

    【74】2017最新大数据10个小时快速入门hadoop3集群实战视频教程 .txt【74】2017最新大数据10个小时快速入门hadoop3集群实战视频教程 .txt【74】2017最新大数据10个小时快速入门hadoop3集群实战视频教程 .txt【74】...

    Linux运维入门Hadoop实验参照手册二(安装Hadoop)

    Linux运维入门Hadoop实验参照手册二(安装Hadoop)

    Hadoop 十分钟快速入门

    快速入门时,你需要了解如何配置Hadoop集群,这包括安装Java环境、下载和解压Hadoop,配置Hadoop的环境变量、core-site.xml、hdfs-site.xml、mapred-site.xml等配置文件,以及启动和停止Hadoop服务。对于HDFS,需要...

    Hadoop入门手册.chm

    Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门

    Linux运维入门Hadoop实验参照手册一(安装VMware与CentOS)

    2. 安装Hadoop:将Hadoop安装到CentOS系统中,包括下载Hadoop软件包、配置Hadoop环境变量、设置HDFS和MapReduce等核心组件。 3. 运行Hadoop:启动Hadoop集群,并运行一些基本的Hadoop命令来验证安装是否成功,如...

    基于Kubernetes平台部署Hadoop实践.docx

    基于Kubernetes平台部署Hadoop实践 本文介绍了如何在Kubernetes平台上部署Hadoop,解决了Hadoop在Kubernetes上的部署问题。Hadoop和Kubernetes是两个不同的技术领域,former是传统的大数据领域,later是新兴的容器...

    HADOOP快速入门及搭建集群环境

    本资源旨在指导读者快速入门HADOOP,并搭建集群环境,以便更好地进行大数据处理和分析。 1. HADOOP背景介绍 HADOOP是apache基金会下的开源项目,始于2005年,由Doug Cutting和Mike Cafarella开发。HADOOP的出现...

    hadoop入门教程.docx

    Hadoop 入门教程 Hadoop 是一个开源的、分布式计算框架,由 Apache 基金会开发和维护。它可以处理大量数据的存储和计算,广泛应用于大数据处理、机器学习、人工智能等领域。本文将详细介绍 Hadoop 的安装和配置过程...

    王家林经典云计算hadoop第1至11讲的课程资料

    王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。 王家林编写的“云计算分布式大数据Hadoop实战高手之路...

    入门Hadoop开发者

    随着Hadoop技术的不断演进,出现了很多相关的教程和技术文章,提供给入门开发者学习和实践。例如,网上有许多关于如何在Windows和Linux环境下安装Hadoop的教程,以及在eclipse等开发工具中编译和运行Hadoop应用程序...

    单机版hadoop安装(linux)

    单机版 Hadoop 安装是指在单台机器上安装 Hadoop 环境,以便快速入门 Hadoop 和了解 Hadoop 的基本原理和使用方法。在这个安装过程中,我们将创建 Hadoop 用户组和用户,安装 JDK,配置环境变量,安装 SSH 服务,并...

    Hadoop 傻瓜入门

    本指南将从多个角度带领读者入门Hadoop,包括它的生态系统、分布式框架原理、与结构化数据的结合以及日常管理等。 Hadoop是针对大数据处理需求而产生的计算范式,能够处理在过去两年间产生的世界绝大多数数据。它的...

    mavenhadoop:示例快速入门 hadoop 项目

    【标题】"mavenhadoop:示例快速入门 hadoop 项目" 【正文】 本项目是一个基于Maven构建的Hadoop示例,旨在帮助初学者快速了解并掌握Hadoop的使用。通过运行这个项目,你可以亲身体验到Hadoop在处理大数据时的基本...

    Hadoop入门脚本WordCount

    本文将详细解析这个简单的WordCount程序,帮助初学者快速入门Hadoop。 一、Hadoop简介 Hadoop是Apache基金会的一个开源项目,基于Java实现,主要设计用于处理和存储大规模数据。其核心包括两个主要组件:HDFS...

    hadoop服务器搭建全攻略

    因此,本文将手把手教你搭建 Hadoop 服务器,帮助你快速入门 Hadoop 大数据时代。 一、Hadoop 集群安装环境 要搭建 Hadoop 服务器,首先需要一台或多台计算机,可以是虚拟机,每台计算机需要至少 2G 以上的内存和 ...

    hadoop入门学习资料大全

    ### Hadoop 入门学习资料大全 #### Hadoop 概述 Hadoop 是一个由 Apache 基金会开发的分布式系统基础架构。它允许用户无需深入了解分布式计算的底层复杂性,即可轻松地开发和运行处理大规模数据的应用程序。通过...

    基于Hadoop应用开发的例子(新手入门宝典)

    基于Hadoop应用开发的例子(新手入门宝典) Hadoop是大数据处理领域的一种流行技术,它提供了基于分布式计算的解决方案,帮助开发者处理大...通过学习这些例子,可以快速入门Hadoop应用开发,提高数据处理效率和能力。

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    这个资源包涵盖了从基础概念到实际操作的多个方面,旨在帮助初学者快速入门Hadoop。 【描述】"传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)" 指出这是一系列由知名教育机构传智黑马的赵星老师主讲的Hadoop...

    hadoop入门教程.pdf

    【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架,主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4,这对于初学者来说是一个很好的起点。 **1. 安装...

    Hadoop大数据开发基础

    这份名为“Hadoop大数据开发基础”的PPT文档,旨在为初学者提供一个入门Hadoop的基础平台。 **一、Hadoop概述** 1. Hadoop的起源:Hadoop最初由Google的论文启发,用于解决大规模数据处理的问题。 2. Hadoop组件:...

Global site tag (gtag.js) - Google Analytics