`

Hadoop入门

阅读更多


1.hadoop集群共同组成了一个"云"(服务器)

2.hadoop强调代码向数据迁移(数据庞大,迁移困难,所以把代码迁移到目标机器上,直接运行,提高效率)
  所以存储和处理要放到一起

3.Hadoop一种分布式的编程框架

4.sql是针对结构化数据很方便,而hadoop方便操作非结构化数据
  原则上,Hadoop和sql可以互补,Hadoop可以作为sql的执行引擎
 
  sql与Hadoop比较:
  1.扩展性:一般是买更大的单机服务器(贵),而hadoop是扩展服务器数量(便宜)
  2.Hadoop用键值对代替关系表
  3.用函数式编程(MapReduce)代替sql
  MapReduce使用脚本和代码来查询数据,这是更一般的查询方式,而sql是结构化查询
 
  sql是声明式语言,你告诉机器想要什么数据,数据库引擎来做出选择查询的方式
  Hadoop是获取数据的方式由你自己来指定
  4.Hadoop用离线批量处理代替在线处理
  hadoop专门为离线处理开发,适合一次写入,多次读取
 
5.写一个mapper和reduce很麻烦,但是一次写好,就容易拓展到千千万万的服务器上

6.简单的练习:统计一组文档中的单词

7.数据太大,内存放不下,那么就需要实现一个磁盘散列表(内存中放索引,磁盘中放对应的数据)

8.mapper将输入进行过滤和转换,reduce对结果进行聚合(分而破之)

9.在mapreduce中编写程序就是定制化mapper和reduce的过程
   1.应用的输入必须组织成键值对的列表
  
10.Hadoop结构:主从结构


   namenode:位于主端,指导从端的DataNode执行底层的I/O任务,跟踪文件如何被分为文件块,被哪些节点存储,以及运行是否正常
            大量消耗内存,I/O资源(可能会存在单点失效的问题)
   DataNode:位于从节点,负责分布式文件的读取和写入
            当要读取或者写入数据的时候,用户向namenode来获取文件块的存储地址,然后用户直接和对应的datanode通信,最后datanode与别的datanode通信,复制数据块实现冗余,见我的图1
   
   secondary Namenode(snn):检测HDFS状态的辅助守护进程,每个集群一个snn,与namenode通信,获取元数据的快照(namenode是单一故障点,ssn有助于错误恢复)
  
   JobTracker:计算的进程也分为主从结构,jobtracker每个集群一个,位于主端,负责分配任务,检测任务的整个运行状态
   taskTracker:负责jobtracker分配的单项任务,每个机器一个,taskTracker可以产生多个jVM来并行处理许多map和reduce的任务
               间隔一定时间与Jobtracker通信,否则jobtracker认为节点崩溃,重新分配任务
     
11.
SSH(Secure Shell)
是一种通用的、功能强大的、基于软件的网络安全解决方案。计算机每次向网络发送数据时,SSH都会自动对其进行加密。


12.为了使主节点来控制从节点,需要一种控制手段,为此,Hadoop使用了ssh协议
   所有节点上的账号要用相同的账号名
  
13.HDFS可以将很大的数据存储为1个文件(实际上是分布存储的),而别的系统无能为力

 

wordcount运行过程:http://blog.csdn.net/xw13106209/article/details/6116323

分享到:
评论

相关推荐

    hadoop 入门

    【Hadoop 入门】 Hadoop 是一个由Apache基金会开发的开源分布式计算框架,它以其高效、可扩展和容错性著称,是大数据处理领域的重要工具。本篇将从Hadoop的基本流程、应用开发以及集群配置和使用技巧三个方面进行...

    hadoop入门经典书籍

    Hadoop是一个广泛使用的分布式数据处理框架,特别适合于处理大规模数据集。它最初是作为搜索引擎的核心数据缩减功能,但由于其架构设计为...而《Hadoop入门经典书籍》这类资料,对于新手来说,是非常有价值的入门参考。

    Hadoop入门到精通

    "Hadoop入门到精通"的学习资料旨在帮助初学者掌握这一强大的框架,并逐步晋升为专家。以下是对Hadoop及其相关概念的详细解读。 一、Hadoop概述 Hadoop是由Apache基金会开发的一个开源框架,主要用于处理和存储大...

    Hadoop入门手册.chm

    Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门

    Hadoop入门实战手册 中文版)

    《Hadoop入门实战手册》是一本专为初学者设计的中文版指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和实际操作技巧。Hadoop是Apache软件基金会的一个开源项目,它为海量数据处理提供了可靠的分布式...

    Hadoop入门程序java源码

    这个“Hadoop入门程序java源码”是为初学者准备的,目的是帮助他们快速掌握如何在Hadoop环境中编写和运行Java程序。Hadoop的主要组件包括HDFS(Hadoop分布式文件系统)和MapReduce,这两个部分将在下面详细介绍。 ...

    hadoop入门

    总之,Hadoop入门教程为初学者提供了对Hadoop核心概念的理解,帮助他们掌握如何安装和使用Hadoop进行数据存储与处理,并理解Hadoop的设计思想和体系架构。通过学习Hadoop,初学者可以入门到大数据处理的广阔天地中,...

    Hadoop入门教程

    本教程《Hadoop入门教程》旨在为初学者提供全面且深入的指导,帮助他们快速理解并掌握Hadoop的基本概念、架构及应用。教程由Hadoop技术论坛在2010年出版,为当时的开发者提供了宝贵的资源。 一、Hadoop简介 Hadoop...

    hadoop入门书籍1

    hadoop的入门书籍,本人认为一共有以下五本书比较好: 1.云计算资料大全(了解云计算者必读).pdf 2.Hadoop开发者入门专刊 3.Hadoop权威指南%28第2版%29中文版 4.hadoop实战中文版+电子版pdf 5.精通HADOOP 由于上传...

    Hadoop入门手册

    【Hadoop入门手册】是一本专为初学者设计的指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和核心概念。Hadoop是Apache软件基金会的一个开源项目,它的出现解决了大数据处理中的诸多挑战,包括数据...

    hadoop入门学习 天气数据 2002年整年数据

    hadoop入门学习 mapreduce求解 天气数据 2002年整年数据的最高气温

    hadoop入门教程.pdf

    【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架,主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4,这对于初学者来说是一个很好的起点。 **1. 安装...

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...

    hadoop入门教程.docx

    【Hadoop入门教程】 本文将带你逐步了解如何在Ubuntu虚拟机中安装配置Hadoop,并使用Eclipse进行Hadoop程序开发。教程适用于初学者,旨在帮助你快速掌握Hadoop的基础知识。 1. **JDK安装与配置** 在开始Hadoop的...

    hadoop入门共21页.pdf.zip

    【标题】"Hadoop入门共21页.pdf.zip" 提供了一个初步了解和学习Hadoop分布式文件系统(HDFS)和MapReduce计算模型的基础教程。Hadoop是大数据处理领域的一个核心框架,它允许用户在廉价硬件集群上存储和处理海量数据...

    Hadoop入门中文手册

    Hadoop入门中文手册 目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等,同样也介绍了Hive,HBase详细安装应用! ...

Global site tag (gtag.js) - Google Analytics