`

Hadoop 分布式安装

 
阅读更多

 

1.安装检查 jdk的安装 略过

2.安装ssh (牛哥 提供脚本 未检测)

#!/bin/sh

cd /home/admin

rm -rfv .ssh

mk .ssh

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod go-rwx ~/.ssh/authorized_keys

 

3.配置ssh 通讯

 

4.windowns 平台修改conf目录下的配置文件

 

hadoop-env.xml 配置jdk 

原文件已经有此属性 放开注释即可

export JAVA_HOME=/usr/java/jdk1.6.0_20

 

core-site.xml 修改为

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
  <name>fs.default.name</name>
 <value>hdfs://10.10.18.9:9000</value>
 </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/xiaoj/hadoop/tmp</value>
 </property>
</configuration>

 

 

mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://10.10.18.9:9001</value>
</property>
</configuration>

 

 

hdfs-site.xml

 

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>



<!-- Put site-specific property overrides in this file. -->

<configuration> 
  <property>  
    <name>dfs.name.dir</name> 
    <value>/home/xiaoj/hadoop/name</value> 
  </property> 
  <property> 
     <name>dfs.data.dir</name> 
     <value>/home/xiaoj/hadoop/data</value> 
  </property> 
  <property> 
     <name>dfs.replication</name> 
     <value>3</value>  
  </property> 
<!-- Cancel the permissions check-->
  <property> 
     <name>dfs.permissions</name> 
     <value>false</value>  
  </property> 
</configuration>




 masters文件 设置namenodeIP

10.10.18.9

 

slaves 文件 设置datanode IP

10.10.18.7

10.10.18.8

 

配置文件到此修改完毕!

接下来 上传hadoop文件夹到虚拟机,root用户下

Adduser xiaoj --创建用户xiaoj

Chown -R xiaoj:xiaoj hadoop  --更改文件夹的所有者

Su xiaoj

Scp hadoop 10.10.18.9:~/--远程copy, 输入正确密码后copy完成

退出虚拟机 登录xiaoj@10.10.18.9

 

scp  hadoop 10.10.18.7:~/

scp  hadoop 10.10.18.8:~/

 

 

进入hadoop 安装目录 

1. 格式化namenode

./bin/hadoop namenode -format

   格式化后会在/tmp  和配置的tmp中产生一些临时文件,关机后可能会删除这个文件,所以重启后可能需要再次 格式化namenode

 

2. 启动hadoop

./bin/start-all.sh

启动namenode,datenode,jobtracker

[hadoop@y176 conf]$ start-all.sh 

starting namenode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-namenode-y176.out

172.19.121.163: starting datanode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-datanode-y163.out

172.19.121.162: starting datanode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-datanode-y162.out

172.19.121.176: starting secondarynamenode, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-secondarynamenode-y176.out

starting jobtracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-jobtracker-y176.out

172.19.121.163: starting tasktracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-tasktracker-y163.out

172.19.121.162: starting tasktracker, logging to /usr/hadoop/libexec/../logs/hadoop-hadoop-tasktracker-y162.out

[hadoop@y176 conf]$ 

 

 

查看文件系统

[hadoop@y176 conf]$ hadoop dfs -ls

Found 2 items

-rw-r--r--   3 hadoop supergroup    7368962 2012-12-23 22:27 /user/hadoop/input

drwxr-xr-x   - hadoop supergroup          0 2012-12-24 01:47 /user/hadoop/output

[hadoop@y176 conf]$ 

 

添加文件core-site.xmldfs 系统中的文件夹intput

[hadoop@y176 conf]$ hadoop dfs -put core-site.xml intput

[hadoop@y176 conf]$ hadoop dfs -ls

Found 3 items

-rw-r--r--   3 hadoop supergroup    7368962 2012-12-23 22:27 /user/hadoop/input

-rw-r--r--   3 hadoop supergroup        369 2012-12-24 19:08 /user/hadoop/intput

drwxr-xr-x   - hadoop supergroup          0 2012-12-24 01:47 /user/hadoop/output

[hadoop@y176 conf]$ 

 

执行hadoop 自带的示例wordcount 检测系统是否能够正常运行

[hadoop@y176 hadoop]$ hadoop jar hadoop-examples-1.1.1.jar wordcount intput ouput

12/12/24 19:11:09 INFO input.FileInputFormat: Total input paths to process : 1

12/12/24 19:11:09 INFO util.NativeCodeLoader: Loaded the native-hadoop library

12/12/24 19:11:09 WARN snappy.LoadSnappy: Snappy native library not loaded

12/12/24 19:11:10 INFO mapred.JobClient: Running job: job_201212241902_0002

12/12/24 19:11:11 INFO mapred.JobClient:  map 0% reduce 0%

12/12/24 19:11:21 INFO mapred.JobClient:  map 100% reduce 0%

12/12/24 19:11:33 INFO mapred.JobClient:  map 100% reduce 33%

12/12/24 19:11:34 INFO mapred.JobClient:  map 100% reduce 100%

12/12/24 19:11:35 INFO mapred.JobClient: Job complete: job_201212241902_0002

12/12/24 19:11:35 INFO mapred.JobClient: Counters: 29

12/12/24 19:11:35 INFO mapred.JobClient:   Job Counters 

12/12/24 19:11:35 INFO mapred.JobClient:     Launched reduce tasks=1

12/12/24 19:11:35 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=8860

12/12/24 19:11:35 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0

12/12/24 19:11:35 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0

12/12/24 19:11:35 INFO mapred.JobClient:     Launched map tasks=1

12/12/24 19:11:35 INFO mapred.JobClient:     Data-local map tasks=1

12/12/24 19:11:35 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=12515

12/12/24 19:11:35 INFO mapred.JobClient:   File Output Format Counters 

12/12/24 19:11:35 INFO mapred.JobClient:     Bytes Written=372

12/12/24 19:11:35 INFO mapred.JobClient:   FileSystemCounters

12/12/24 19:11:35 INFO mapred.JobClient:     FILE_BYTES_READ=466

12/12/24 19:11:35 INFO mapred.JobClient:     HDFS_BYTES_READ=479

12/12/24 19:11:35 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=48729

12/12/24 19:11:35 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=372

12/12/24 19:11:35 INFO mapred.JobClient:   File Input Format Counters 

12/12/24 19:11:35 INFO mapred.JobClient:     Bytes Read=369

12/12/24 19:11:35 INFO mapred.JobClient:   Map-Reduce Framework

12/12/24 19:11:35 INFO mapred.JobClient:     Map output materialized bytes=466

12/12/24 19:11:35 INFO mapred.JobClient:     Map input records=14

12/12/24 19:11:35 INFO mapred.JobClient:     Reduce shuffle bytes=466

12/12/24 19:11:35 INFO mapred.JobClient:     Spilled Records=44

12/12/24 19:11:35 INFO mapred.JobClient:     Map output bytes=447

12/12/24 19:11:35 INFO mapred.JobClient:     CPU time spent (ms)=1180

12/12/24 19:11:35 INFO mapred.JobClient:     Total committed heap usage (bytes)=208404480

12/12/24 19:11:35 INFO mapred.JobClient:     Combine input records=24

12/12/24 19:11:35 INFO mapred.JobClient:     SPLIT_RAW_BYTES=110

12/12/24 19:11:35 INFO mapred.JobClient:     Reduce input records=22

12/12/24 19:11:35 INFO mapred.JobClient:     Reduce input groups=22

12/12/24 19:11:35 INFO mapred.JobClient:     Combine output records=22

12/12/24 19:11:35 INFO mapred.JobClient:     Physical memory (bytes) snapshot=178487296

12/12/24 19:11:35 INFO mapred.JobClient:     Reduce output records=22

12/12/24 19:11:35 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=753090560

12/12/24 19:11:35 INFO mapred.JobClient:     Map output records=24

[hadoop@y176 hadoop]$ 

 

由命令可以看出,输出结果保存在ouput目录下

 

[hadoop@y176 hadoop]$ hadoop dfs -ls

Found 4 items

-rw-r--r--   3 hadoop supergroup    7368962 2012-12-23 22:27 /user/hadoop/input

-rw-r--r--   3 hadoop supergroup        369 2012-12-24 19:08 /user/hadoop/intput

drwxr-xr-x   - hadoop supergroup          0 2012-12-24 19:11 /user/hadoop/ouput

drwxr-xr-x   - hadoop supergroup          0 2012-12-24 01:47 /user/hadoop/output

[hadoop@y176 hadoop]$ 

 

将文件夹下载到本地

[hadoop@y176 hadoop]$ hadoop dfs -get ouput ouput

查看本地文件夹ouput 的大小

[hadoop@y176 hadoop]$ ll |grep ouput

drwxrwxr-x.  3 hadoop hadoop    4096 Dec 24 19:13 ouput

[hadoop@y176 hadoop]$ 

 

查看分析结果

[hadoop@y176 hadoop]$ cd ouput/

[hadoop@y176 ouput]$ ll

total 8

drwxrwxr-x. 3 hadoop hadoop 4096 Dec 24 19:13 _logs

-rw-rw-r--. 1 hadoop hadoop  372 Dec 24 19:13 part-r-00000

-rw-rw-r--. 1 hadoop hadoop    0 Dec 24 19:13 _SUCCESS

 

查看文件的前10

[hadoop@y176 ouput]$ tail -n 10 part-r-00000 

Put1

file.1

href="configuration.xsl"?>1

in1

overrides1

property1

site-specific1

this1

type="text/xsl"1

version="1.0"?>1

[hadoop@y176 ouput]$ 

 

关闭hadoop

[hadoop@y176 ~]$ stop-all.sh 

stopping jobtracker

172.19.121.163: stopping tasktracker

172.19.121.162: stopping tasktracker

stopping namenode

172.19.121.162: stopping datanode

172.19.121.163: stopping datanode

172.19.121.176: stopping secondarynamenode

[hadoop@y176 ~]$ jps

8039 Jps

[hadoop@y176 ~]$ 

 

自此 hadoop 安装 完毕

分享到:
评论

相关推荐

    Hadoop分布式安装配置.docx

    Hadoop分布式安装配置 Hadoop是当前大数据处理的主流技术之一,由于其开源、可扩展、灵活的特点,广泛应用于大数据处理、数据分析、机器学习等领域。为帮助读者更好地理解Hadoop的安装配置,本文将从大数据概念、...

    hadoop分布式安装02.mp4

    hadoop分布式安装02.mp4

    hadoop分布式安装java与hadoop.docx

    【分布式安装Java与Hadoop】 在进行Hadoop的分布式安装之前,首要任务是确保所有参与节点都安装了相同版本的Java。这是因为Hadoop是用Java编写的,它依赖于Java运行环境来执行其核心服务。在本文中,我们将讨论如何...

    Hadoop分布式安装笔记.rar

    本笔记将深入探讨Hadoop的分布式安装过程,帮助读者理解如何在多台机器上构建一个高效、可靠的Hadoop集群。 首先,Hadoop是Apache软件基金会的一个开源项目,其核心设计目标是处理和存储海量数据。它采用了分片...

    Hadoop完全分布式详细安装过程

    ### Hadoop完全分布式详细安装过程知识点解析 #### 一、概览 本文旨在详细介绍Hadoop在完全分布式环境下的安装步骤及注意事项。整个安装过程分为六个主要部分:安装虚拟化工具VMware、在VMware上安装Ubuntu系统、...

    Hadoop分布式合集【精品】【免积分】

    Hadoop是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来...Hadoop分布式安装与配置手册 Hadoop权威指南原版 hadoop权威指南中文第二版 Hadoop实战-陆嘉恒 分布式基础学习 用+Hadoop+进行分布式并行编程

    Hadoop技术-Hadoop完全分布式安装.pptx

    "Hadoop技术-Hadoop完全分布式安装" Hadoop技术是当前最流行的分布式计算框架之一,广泛应用于数据存储、数据处理和数据分析等领域。Hadoop完全分布式安装是指在多台机器上安装和配置Hadoop,以便更好地处理大规模...

    Hadoop分布式云盘系统

    基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统。使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注用户、我的分享、我...

    Hadoop分布式文件系统——翻译

    ### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...

    hadoop 分布式缓存源码

    Hadoop分布式缓存是Hadoop生态系统中的一个重要组成部分,它允许应用程序在执行MapReduce任务时共享和重用数据,从而提高整体性能。这份源码提供了深入理解Hadoop如何管理和利用分布式缓存的机会,对于想要优化...

    Hadoop分布式文件系统:架构和设计.doc

    Hadoop分布式文件系统架构和设计 Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式...

    高可用性的HDFS-Hadoop分布式文件系统深度实践.part1.rar

    《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...

    Hadoop分布式集群配置指南

    Hadoop分布式集群配置指南 Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 ...

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...

    基于Hadoop分布式交通大数据存储分析平台设计.pdf

    本文将讨论如何基于Hadoop分布式存储与分析平台解决这一问题。 Hadoop是一个开源的分布式存储和处理大数据的框架,它能有效地存储和处理PB级别的数据。Hadoop的核心是HDFS(Hadoop Distributed File System),它...

    centos7安装和基础环境配置:Hadoop分布式搭建前期准备工作.docx

    CentOS7安装和基础环境配置:Hadoop分布式搭建前期准备工作 CentOS7是 Linux 操作系统的发行版本之一,广泛应用于服务器和超级计算机领域。Hadoop是一个基于分布式计算的开源框架,广泛应用于大数据处理和分析领域...

    基于Hadoop分布式爬虫设计综述.docx

    基于Hadoop分布式爬虫设计综述 Hadoop分布式爬虫设计是当今互联网发展的最大挑战之一,旨在快速高效和安全地让网络用户在浩瀚的信息海洋中找到并获取自己所需的资源。本文主要阐述了基于Hadoop分布式文件系统HDFS...

    Hadoop分布式配置文件hdfs-site.xml

    Hadoop分布式配置文件hdfs-site.xml,用于在搭建Hadoop分布式集群时,设置集群规划所用,集群中虚拟机都需要修改该配置文件,除此之外,还需要修改其他配置文件,包括core-site.xml、mapred-site.xml和yarn-site.xml...

    Hadoop分布式配置文件mapred-site.xml

    Hadoop分布式配置文件mapred-site.xml,用于在搭建Hadoop分布式集群时,设置集群规划所用,集群中虚拟机都需要修改该配置文件,除此之外,还需要修改其他配置文件,包括core-site.xml、hdfs-site.xml和yarn-site.xml...

Global site tag (gtag.js) - Google Analytics