hadoop参数配置优化

博客分类：

Hadoop

由于最近一直忙于项目的开发，所以很多配置大致进行了一下测试，具体的数据并没有统计，所以以下配置还需要根据自身的项目应用和硬件配置进行修改，事后等空闲了进行一下配置优化测试。先给出配置项。配置版本hadoop 1.0.3，版本不同可能配置项的名称会有差异。主要参照官方给出的配置指南进行的。 hadoop.tmp.dir 默认值： /tmp 说明：尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果服务器是多磁盘的，每个磁盘都设置一个临时文件目录，这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。 fs.trash.interva ...

2014-04-12 00:09
浏览 917
评论(0)
分类:编程语言

hbase配置、运行错误总结

博客分类：

HBase

hbase mapreduce

一、执行$ hbase hbck 命令时，出现以下提示： Invalid maximum heap size: -Xmx4096mThe specified size exceeds the maximum representable size.Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit. 原因：jvm设置的内存过大 ...

2014-04-12 00:08
浏览 5795
评论(0)
分类:编程语言

HDFS的实现机制原理

博客分类：

HDFS

当数据集的大小超过一台独立物理计算机的存储能力的时候,就有必要对其进行分区.并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统称为分布式文件系统.该系统架构于网络之上,,基于网络的复杂性,该系� ...

2014-04-11 14:27
浏览 1100
评论(0)
分类:编程语言

转-HDFS原理分析之HA机制：avatarnode原理

博客分类：

HDFS

由于namenode 是HDFS的大脑，而这个大脑又是单点，如果大脑出现故障，则整个分布式存储系统就瘫痪了。HA（High Available）机制就是用来解决这样一个问题的。碰到这么个问题，首先本能的想到的就是冗余备份，我们今天要讨论的是avatarnode。 AD：51CTO学院：IT精品课程在线看！一、问题描述由于namenode 是HDFS的大脑，而这个大脑又是单点，如果大脑出现故障，则整个分布式存储系统就瘫痪了。HA（High Available）机制就是用来解决这样一个问题的。碰到这么个问题，首先本能的想到的就是冗余备份，备份的方式有很多种 ...

2014-04-11 14:26
浏览 945
评论(0)
分类:编程语言

转- MapReduce工作原理图文详解

博客分类：

MapReduce

mapreduce 云计算 hadoop

前言：前段时间我们云计算团队一起学习了hadoop相关的知识，大家都积极地做了、学了很多东西，收获颇丰。可是开学后，大家都忙各自的事情，云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下，我们云计算团队重振旗鼓了，希望大伙仍高举“云在手，跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧，也希望有更多优秀的文章出炉。汤帅，亮仔，谢总•••搞起来啊！呵呵，下面我们进入正题，这篇文章主要分析以下两点内容：目录：1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文： 1.MapReduce作业运行流程下面贴出我用visio2 ...

2014-04-11 14:20
浏览 836
评论(0)
分类:编程语言

hadoop配置、运行错误总结二

博客分类：

Hadoop

接上一篇。十二、如果遇到如下错误： FAILED java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:*** 就是URI里边出现了不允许出现的字符，比如冒号：之类的，操作系统不允许的文件命名字符。详细的可以根据提示的部分（星号部分）来进行grep匹配查看。消除掉就可以解决了。十三、遇到tasktracker无法启动，tasktracker日志报错如下： ERROR org.apache.hadoop.mapred.TaskTracke ...

2014-04-11 13:15
浏览 1158
评论(0)
分类:编程语言

hadoop配置、运行错误总结一

博客分类：

Hadoop

hadoop mapreduce

新手搞hadoop最头疼各种各样的问题了，我把自己遇到的问题以及解决办法大致整理一下先，希望对你们有所帮助。一、hadoop集群在namenode格式化（bin/hadoop namenode -format）后重启集群会出现如下 Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespaceID=... 错误，原因是格式化namenode后会重新创建一个新的namespaceID,以至于和datanode上原有的不一致。解决方法：删除datanode dfs.data ...

2014-04-11 13:14
浏览 1321
评论(0)
分类:编程语言

转-Hadoop虽强大，但不是万能的

博客分类：

Hadoop

mapreduce hadoop hbase 框架编程

注：本文翻译自 http://www.cyanny.com/2013/12/05/hadoop-isnt-silver-bullet/ Hadoop是一个分布式海量数据计算的伟大框架。但是，hadoop并不是万能的。比如，以下场景就不适合用hadoop： 1、低延迟数据访问需要实时查询并在毫秒级内进行低延时访问数据就不适合用hadoop。Hadoop并不适用于数据库。数据库的索引记录可降低延时的时间，提高响应的速度。但是，如果你在数据库这方面确实有实时查询的需求，可以尝试一下HBase，这是一个适合随机访问和实时读写的列式数据库。 2、结构化的数据 Ha ...

2014-04-10 17:17
浏览 631
评论(0)
分类:互联网

单节点配置SecondaryNameNode

博客分类：

Hadoop

hadoop

一、SecondaryNameNode概念：光从字面上来理解，很容易让一些初学者先入为主：SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。ssn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。对于hadoop进程中，要配置好并正确的使用snn，还是需要做一些工作的。hadoop的默认配置中让snn进程默认运行在了namenode的那台机器上，但是这样的话，如果这台机器出错，宕机，对恢复HDF ...

2014-04-10 16:53
浏览 848
评论(0)
分类:编程语言

oop主节点（NameNode）备份策略以及恢复方法

博客分类：

Hadoop

一、dits和fsimage 首先要提到两个文件edits和fsimage，下面来说说他们是做什么的。集群中的名称节点（NameNode）会把文件系统的变化以追加保存到日志文件edits中。当名称节点（NameNode）启动时，会从镜像文件 fsimage 中读取HDFS的状态，并且把edits文件中记录的操作应用到fsimage，也就是合并到fsimage中去。合并后更新fsimage的HDFS状态，创建一个新的edits文件来记录文件系统的变化那么问题来了，只有在名称节点（NameNode）启动的时候才会合并fsimage和edits，那么久而久之edi ...

2014-04-10 16:38
浏览 482
评论(0)
分类:编程语言

hadoop常见错误及处理方法

博客分类：

Hadoop

hadoop java

1、hadoop-root-datanode-master.log 中有如下错误： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in 导致datanode启动不了。原因:每次namenode format会重新创建一个namenodeId,而dfs.data.dir参数配置的目录中包含的是上次format创建的id,和dfs.name.dir参数配置的目录中的id不一致。namenode format清空了namenode下的数据, ...

2014-04-10 16:33
浏览 939
评论(0)
分类:编程语言

从程序员到CTO的Java技术路线图

博客分类：

Java

java 编程框架 jdk

在技术方面无论我们怎么学习，总感觉需要提升自已不知道自己处于什么水平了。但如果有清晰的指示图供参考还是非常不错的，这样我们清楚的知道我们大概处于那个阶段和水平。 Java程序员高级特性反射、泛型、注释符、自动装箱和拆箱、枚举类、可变参数、可变返回类型、增强循环、静态导入核心编程

2014-04-10 16:00
浏览 758
评论(0)
分类:编程语言

Hadoop集群三种作业调度算法介绍

博客分类：

Hadoop

hadoop

Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）Hadoop中默认的调度器FIFO，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。FIFO比较简单，hadoop中只有一� ...

2014-04-03 23:29
浏览 1395
评论(0)
分类:编程语言

hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍

博客分类：

Hadoop

hadoop socket

1）NameNode、DataNode和Client NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序。2）文件写入 ...

2014-04-03 23:28
浏览 4248
评论(0)
分类:编程语言

Hadoop资源感知调度器

博客分类：

Hadoop

中国第一个在线Hadoop教育平台—小象学院，推荐给Hadoop初学者和实践者，网址是：http://www.chinahadoop.cn/ 本博客微信公共账号：hadoop123（微信号为：hadoop-123），分享hadoop技术内幕，hadoop最新技术进展，发布hadoop相关职位和求职信 ...

2014-04-03 23:04
浏览 379
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop参数配置优化

hbase配置、运行错误总结

HDFS的实现机制原理

转-HDFS原理分析之HA机制：avatarnode原理

转- MapReduce工作原理图文详解

hadoop配置、运行错误总结二

hadoop配置、运行错误总结一

转-Hadoop虽强大，但不是万能的

单节点配置SecondaryNameNode

oop主节点（NameNode）备份策略以及恢复方法

hadoop常见错误及处理方法

从程序员到CTO的Java技术路线图

Hadoop集群三种作业调度算法介绍

hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍

Hadoop资源感知调度器

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>