Hadoop 学习笔记（一） - 胡博-学习探索 - ITeye博客

`

hbjava1985

浏览: 51070 次
性别:
来自: 北京

最近访客更多访客>>

ulinchen

sawyerYongs

lishichang

zuocheng217

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Hadoop 学习笔记（一）

博客分类：

Hadoop

阅读更多

解决主要问题：海量数据存储（HDFS），分布式运算（Map Reduce）
存储单位——“Block”，每个块存3份
HDFS特点
水平扩展存储（运算）能力
数据备份
HDFS中主要角色：
Namenode（负责协调）
Datanode（负责干活）

map reduce是一种数据处理的编程模型，下面两个例子将说明它的处理过程：
一、SHELL命令举例：
ls | grep 2008 #查询文件名包含2008的文件
ls | grep 2008 | wc -l #计算上述指令查询文件个数

二、SQL举例：
select * from device t where t.name like 'CNC-Bj%'
select count(*) from device t where t.name like 'CNC-Bj%

前一个动作是map 后一个动作是reduce

Map reduce 框架包含两个程序：
Jobtracker（Job协调）
Tasktracker（干活）
不足：小文件
namenode小文件问题，大量小文件会导致其内存溢出，mapreduce job运行效率低下

分享到：

Hadoop 学习笔记（二） | Python中生成（写入数据到）Excel文件 by ...

2013-09-15 08:11
浏览 400
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop学习笔记: Hadoop学习笔记，自己总结的一些Hadoop学习笔记，比较简单。

Hadoop 学习笔记.md: Hadoop 学习笔记.md

最新Hadoop学习笔记: **Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架，由Apache基金会开发，主要用于处理和存储海量数据。它的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce，两者构成了大数据处理的基础...

hadoop学习笔记.rar: 六、hadoop学习笔记之一：初识Hadoop 这篇笔记介绍了Hadoop的基本概念，包括Hadoop的诞生背景、核心组件以及Hadoop的优势。初学者可以从这里了解Hadoop的基本架构和工作原理，为后续的学习打下基础。总结，Hadoop...

3.Hadoop学习笔记.pdf: Hadoop是一个开源框架，用于存储和处理大型数据集。由Apache软件基金会开发，Hadoop已经成为大数据处理事实上的标准。它特别适合于存储非结构化和半结构化数据，并且能够存储和运行在廉价硬件之上。Hadoop具有高可靠...

云计算hadoop学习笔记: 云计算，hadoop，学习笔记， dd

hadoop学习笔记: 我学习hadoop的笔记，并在公司做的报告，给大家共享下

HADOOP学习笔记: 【HADOOP学习笔记】 Hadoop是Apache基金会开发的一个开源分布式计算框架，是云计算领域的重要组成部分，尤其在大数据处理方面有着广泛的应用。本学习笔记将深入探讨Hadoop的核心组件、架构以及如何搭建云计算平台。...

hadoop学习笔记（三）: 在本篇"Hadoop学习笔记（三）"中，我们将探讨如何使用Hadoop的MapReduce框架来解决一个常见的问题——从大量数据中找出最大值。这个问题与SQL中的`SELECT MAX(NUMBER) FROM TABLE`查询相似，但在这里我们通过编程...

Hadoop学习笔记.pdf: Hadoop是一种开源的分布式存储和计算系统，它由Apache软件基金会开发。在初学者的角度，理解Hadoop的组成部分以及其架构设计是学习Hadoop的基础。首先，Hadoop的分布式文件系统（HDFS）是其核心组件之一，它具有高...

hadoop学习笔记（一）: 在本篇"Hadoop学习笔记（一）"中，我们将探讨Hadoop的核心组件——MapReduce，以及如何使用它来实现类似于SQL的功能。MapReduce是Hadoop生态中的关键部分，主要用于处理和分析大规模分布式数据集。首先，Sqoop是...

Hadoop学习笔记整理: "Hadoop学习笔记整理" 本篇笔记对Hadoop进行了系统的介绍和总结，从大数据的基本流程到Hadoop的发展史、特性、集群整体概述、配置文件、HDFS分布式文件系统等方面都进行了详细的讲解。一、大数据分析的基本流程 ...

linux+hadoop笔记（一）: hadoop学习笔记，分天学习，原创，亲测，放心使用，没问题。

hadoop学习笔记（二）: 在标题提到的“hadoop学习笔记（二）”中，我们看到作者通过编写一个MapReduce测试类`MyMapReduceSIngleColumnTest`来学习和理解Hadoop MapReduce的基本工作原理。这个测试类是基于一个简单的假设，即我们通常会遇到...

大数据hadoop学习笔记: 这是自己学习大数据时整理的笔记，希望能够不使用资源分，免费分享！

Hadoop学习笔记AAAAAAAAAAA: 《深入理解Hadoop分布式系统》 ...Hadoop的学习是一个逐步深入的过程，涵盖分布式存储、计算模型、资源调度等多个方面，理解其工作原理和最佳实践，对于在大数据环境中构建高效稳定的系统至关重要。

Global site tag (gtag.js) - Google Analytics