- 浏览: 294178 次
文章分类
最新评论
-
feargod:
...
ActivityGroup的子activity响应back事件的顺序问题 -
hoarhoar:
谢谢你,终于解决了,我真是受够了,总是45秒钟,真是疯了。
youku 的广告必须要屏蔽 -
lilai:
...
youku 的广告必须要屏蔽 -
aijuans2:
...
youku 的广告必须要屏蔽 -
weiwo1978:
说的非常好,mark
SELECT语句执行的顺序
关于hadoop的一些介绍和原理,在此不做任何描述,只讲实际应用。对于Hadoop来说,在HDFS看来,节点分为Namenode 和Datanode,其中Namenode只有一个,Datanode可以是很多;在MapReduce看来,节点又分为Jobtracker和 Tasktracker,其中Jobtracker只有一个,Tasktracker可以是很多。在此,所有的节点我都部署在一台机器上的。1、 安装:解压缩文件包
tar xfzv file.tgz
2、 配置:进入conf目录,修改配置文件。
1)
hadoop-env.sh
中的 JAVA_HOME【export JAVA_HOME=/usr/lib/jvm/java】
2)
hadoop-site.xml
见附录。hadoop-default.xml中包含了Hadoop的所有配置项,但是不允许直接修改!可以在hadoop-conf/目录下的hadoop-site.xml里面定义我们需要的项,其值会覆盖hadoop-default.xml中的默认值,可以根据自己的实际需要来进行定制。
3、
bin/hadoop namenode -format
格式化namenode,提示信息如下:
[JRockit] Local management server started.
09/07/29 10:07:44 INFO dfs.NameNode: STARTUP_MSG:STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = localhost.localdomain/127.0.0.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 0.18.3
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/core/branches/branch-0.18 -r 736250; compiled by 'ndaley' on Thu Jan 22 23:12:08 UTC 200909/07/29 10:07:44 INFO fs.FSNamesystem: fsOwner=root,root,bin,daemon,sys,adm,disk,wheel
09/07/29 10:07:44 INFO fs.FSNamesystem: supergroup=supergroup
09/07/29 10:07:44 INFO fs.FSNamesystem: isPermissionEnabled=true
09/07/29 10:07:44 INFO dfs.Storage: Image file of size 78 saved in 0 seconds.
09/07/29 10:07:45 INFO dfs.Storage: Storage directory /root/hadoop-0.18.3/filesystem/name has been successfully formatted.
09/07/29 10:07:45 INFO dfs.NameNode: SHUTDOWN_MSG:SHUTDOWN_MSG: Shutting down NameNode at localhost.localdomain/127.0.0.14、
bin/start-all.sh
启动所有守护进程
bin/stop-all.sh
停止所有守护进程
start-mapred.sh
启动Map/Reduce守护。包括Jobtracker和Tasktrack
stop-mapred.sh
停止Map/Reduce守护
start-dfs.sh
启动Hadoop DFS守护.Namenode和Datanode
stop-dfs.sh
停止DFS守护
5、
bin/hadoop dfs -mkdir testdir
建立目录,这个目录并不是实际目录
6、
bin/hadoop dfs -put conf/hadoop-default.xml testdir
复制文件
有时,当你申请到一个HOD集群后马上尝试上传文件到HDFS时,DFSClient会警告NotReplicatedYetException。通常会有一个如下报错信息。
org.apache.hadoop.ipc.RemoteException: java.io.IOException File /root/testdir/hadoop-default.xml could only be replicated to 0 nodes, instead of 1
at org.apache.hadoop.dfs.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1123)
at org.apache.hadoop.dfs.NameNode.addBlock(NameNode.java:330)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:481)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:890)
at org.apache.hadoop.ipc.Client.call(Client.java:716)
at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:216)
at org.apache.hadoop.dfs.$Proxy0.addBlock(Unknown Source)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
at org.apache.hadoop.dfs.$Proxy0.addBlock(Unknown Source)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:2450)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:2333)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.access$1800(DFSClient.java:1745)
at org.apache.hadoop.dfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:1922)
……不幸的是我也遇到了这个报错,google了很久才找到一个解决方案:
当你向一个DataNodes正在和NameNode联络的集群上传文件的时候,这种现象就会发生。在上传新文件到HDFS之前多等待一段时间就可以解决这个问题,因为这使得足够多的DataNode启动并且联络上了NameNode。
果然,很有效!
7、
bin/hadoop dfs -ls testdir
查看现有文件
8、
bin/hadoop dfs -cat testdir/hadoop-default.xml
查看文件内容
9、
bin/hadoop jar hadoop-0.18.3-examples.jar wordcount testdir test-out
执行分布式统计词
10、
bin/hadoop dfs -ls test-out bin/hadoop dfs -cat /user/root/test-out/part-00000
查看统计结果tracker. 2
tracking 1
transfers 1
trash 2
trigger 1
triggers 1
true 4
true, 4
try 2
turned 1
two 1
type="text/xsl" 1
typically 1
ui 1
unchanged. 2
under 2
under/over 1
unspecified 1至此,hadoop安装、配置、测试已走了一通。当然这其中还有些问题我并未过问的,比如
SSH设置
,没进行该设置,会导致运营hadoop过程中会提示需要输入密码,比较麻烦,把ssh配置好了,各个节点之间打通了,就不会出现这种问题了。
更多信息请查看 java进阶网 http://www.javady.com
发表评论
-
hadoop FSNamesystem中的recentInvalidateSets
2012-04-20 20:28 1010今天早就回来了,然后偷懒了2个小时,现在才开始分析代码, ... -
hadoop namenode后台jetty web
2012-04-20 20:28 1685现在开始分析namenode启动时开启的第2类线程, ... -
hadoop namenode format做了什么?
2012-04-18 20:58 1146一看到format就和磁盘格式化联想到一起,然后这个fo ... -
hadoop分布式配置(服务器系统为centos5,配置时使用的用户是root)
2012-04-14 21:19 1063目前我们使 ... -
hadoop系列A:多文件输出
2012-04-14 21:18 1471package org.myorg; import ... -
Hadoop 安装问题和解决方案
2012-04-10 13:21 1256前几天在Window和Linux主机安装了Hadoop, ... -
运行Hadoop遇到的问题
2012-04-10 13:19 1609运行Hadoop遇到的问题 1, 伪分布式模式 ... -
运行Hadoop遇到的问题
2012-04-10 13:19 0运行Hadoop遇到的问题 1, 伪分布式模式 ... -
hadoop使用过程中的一些小技巧
2012-04-09 10:16 1168hadoop使用过程中的一些小技巧 ------------- ... -
运行hadoop时的一些技巧
2012-04-09 10:14 767//用来给key分区的,需要实现Partitioner接口 ... -
hive相关操作文档收集
2012-04-08 10:51 0How to load data into Hive ... -
hive sql doc
2012-04-08 10:51 0记录2个常用的hive sql语法查询地 官方 ht ... -
hive Required table missing : "`DBS`" in Catalog "" Schema "
2012-04-08 10:51 0最近需要提取一些数据,故开始使用hive,本机搭建了一个hiv ... -
HDFS数据兼容拷贝
2012-04-08 10:50 0系统中使用了hadoop 19.2 20.2 2个版本,为啥有 ... -
hdfs 简单的api 读写文件
2012-04-08 10:50 0Java代码 import ... -
hbase之htable线程安全性
2012-04-22 15:22 1187在单线程环境下使用hbase的htable是没有问题,但是突然 ... -
hbase之scan的rowkey问题
2012-04-22 15:22 1769最近使用到hbase做存储,发现使用scan的时候,返回的ro ... -
datanode启动开启了那些任务线程
2012-04-22 15:22 1086今天开始分析datanode,首先看看datanode开启了哪 ... -
namenode这个类的主要功能
2012-04-22 15:22 1507今天来总看下namenode这个类的主要功能 首先看下这个类 ... -
hadoop监控
2012-04-22 15:21 1597通过从hadoop的 hadoop-metrics文件中就可以 ...
相关推荐
虚拟机技术为Hadoop的安装与测试提供了稳定的运行环境,有助于提高学习效率与资源利用率。 ### 二、Linux常用命令及操作 #### 常用命令介绍 - **打开终端**:使用快捷键`Ctrl+Alt+T`快速打开终端。 - **创建用户*...
首先,"Hadoop平台搭建及实例运行.doc"提供了关于如何在不同环境中搭建Hadoop平台的详细步骤,包括硬件配置、软件安装、集群配置等,同时通过实例运行帮助用户理解Hadoop的实际操作流程,这对于初学者和想要深入理解...
### Hadoop集群安装配置详解 ... 调整Hadoop配置参数,如内存大小、数据块大小等。 通过以上步骤,可以成功搭建一个基本的Hadoop集群,并进行简单的测试。随着使用的深入,还需要根据实际需求进一步调整和优化配置。
【Hadoop安装配置步骤】 安装Hadoop通常涉及以下步骤: 1. 安装Java开发工具包(JDK),因为Hadoop依赖Java运行。 2. 设置环境变量,如JAVA_HOME,确保Hadoop能找到Java环境。 3. 下载Hadoop二进制包,并解压到适当...
【Hadoop大数据平台测试报告及成功案例】 在大数据领域,Hadoop是一个广泛使用的开源框架,专为处理和存储大量数据而设计。此测试报告聚焦于Cloudera的商业发行版CDH(Cloudera Distribution Including Apache ...
- 使用`hadoop-0.20.1-examples.jar`中的WordCount程序作为测试案例。 - 创建测试输入文件夹`test-in`,并在该文件夹中创建两个文本文件`file1.txt`和`file2.txt`。 - 运行WordCount程序: ``` $ bin/hadoop ...
本教程将深入探讨Hadoop的配置、安装及使用方法,旨在帮助初学者快速掌握这一强大的分布式系统基础架构。 1. **Hadoop概述**:Hadoop由Apache基金会开发,基于Google的GFS和MapReduce论文设计,提供了一个可靠的、...
在这个小案例中,我们将重点讨论如何在Windows系统中配置Hadoop2,并利用Ant工具进行构建。 首先,我们需要下载Hadoop2的二进制发行版,通常以.tar.gz或.zip格式提供。解压缩后,将文件放在一个适当的目录下,例如C...
2. **学习Hadoop的安装与配置**:包括Hadoop软件的下载、解压、配置等过程,确保能够成功搭建Hadoop集群。 3. **学习编写基础的MapReduce代码**:通过编写简单的MapReduce程序,理解MapReduce的工作原理及其在大数据...
**Hadoop:开启分布式计算之旅** Hadoop是Apache软件基金会的一个开源项目,它是一个用于处理和存储大量数据的分布式计算框架。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce,这两个...
【Dockerfile详解】 Dockerfile 是一个文本文件,包含了构建 Docker 映像的指令序列。...通过 Docker 安装 Hadoop 集群,可以在不改变主机系统的情况下快速部署和测试,方便开发者和运维人员进行开发、测试和演示。
在安装Apache Hadoop之前,首先需要理解Hadoop是什么。...这个过程需要对Linux系统、网络配置和Hadoop框架有一定的了解,但通过遵循文档和案例,可以成功在CentOS上搭建起一个运行的Hadoop单节点集群。
#### 二、Hadoop 2.7.3 安装与配置 **2.1 安装 Hadoop** - 将Hadoop压缩包`hadoop-2.7.3.tar.gz`上传至用户根目录,并解压。 - 创建必要的目录结构:`tmp`, `logs`, `hdfs`, `name`等。 **2.2 配置 hadoop-env.sh...
3. 配置插件:在Eclipse中设置Hadoop集群的相关信息,包括Hadoop的安装路径、 Namenode地址、端口等。 4. 使用插件:现在你可以通过Eclipse的“File” > “New” > “Job”等选项创建和管理Hadoop MapReduce作业了。...
- **物理机配置**:本案例采用的操作系统为Windows 7 64位。 - **虚拟机软件**:使用的是VirtualBox 4.3.10版本。 - **操作系统**:Linux发行版CentOS 6.3。 - **Hadoop版本**:Hadoop 2.3.0。 - **其他依赖组件**:...
### Hadoop入门进阶课程之Mahout介绍、安装与应用案例 #### Mahout概述 Mahout作为Apache Software Foundation(ASF)旗下的一个开源项目,致力于提供一系列可扩展的机器学习算法实现,以帮助开发者更轻松地构建...
步骤6:修改Hadoop配置文件。Hadoop的配置文件较多,这里主要修改六个核心的配置文件:hadoop-env.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。每个配置文件需要设置不同的参数以...
**实验描述:** 本次实验旨在通过JAVA API实现MapReduce的经典案例——倒排索引,进一步熟悉Hadoop集群的部署与测试流程。 **实验目的与要求:** - **学习JAVA API调用Hadoop接口:** 掌握如何利用JAVA编程语言编写...