- 浏览: 225777 次
- 性别:
- 来自: 上海
-
文章分类
最新评论
-
chowqh:
#修改指向我的hadoop安装目录 org.apache.s ...
Sqoop 1.99.3 安装 -
chowqh:
#修改指向我的hadoop安装目录 org.apache.s ...
Sqoop 1.99.3 安装 -
wuzhongfei:
sqoop1.99.3以后是不是全部取消了sqoop命令,例如 ...
Sqoop 1.99.3 安装 -
cyj0421129:
sqoop:000> show version -all ...
Sqoop 1.99.3 安装 -
mypeterhero:
请问,我的服务端也起来了如下:sqoop.sh server ...
Sqoop 1.99.3 安装
+==========================================搭建伪分布式hadoop===========================
+======================================准备工作/下载及安装软件 开始===========================
0.下载新新版本的ubuntu
见网上教程
1.JDK下载安装
下载地址:http://download.oracle.com/otn-pub/java/jdk/8u5-b13/jdk-8u5-linux-x64.tar.gz
减 压:tar –zxvf jdk-8u5-linux-x64.tar.gz
环境变量:
vim /etc/profile
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin: $PATH
验 证:java –version
2.maven下载安装
下载地址:http://apache.fayea.com/apache-mirror/maven/maven-3/3.2.1/binaries/apache-maven-3.2.1-bin.tar.gz
减 压:tar –xvf apache-maven-3.2.1-bin.tar.gz
环境变量:
vim /etc/profile
export MAVEN_HOME=/opt/hadoop/software/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
验 证:mvn –version
3.ProtoclBuffer下载安装
下载地址:https://code.google.com/p/protobuf/downloads/detail?name=protobuf-2.5.0.tar.gz&can=2&q=
减 压:tar –xvf protobuf-2.5.0.tar.gz
安 装:
./configure --prefix=/opt/hadoop/software/protobuf
make
make install
环境变量:
vim /etc/profile
export PROTOC_HOME=/opt/hadoop/software/protobuf
PATH=$PROTOC_HOME/bin:$PATH
验 证:protoc –-version
4.CMake下载安装
下载地址:http://www.cmake.org/files/v2.8/cmake-2.8.12.2.tar.gz
减 压:tar –xvf cmake-2.8.12.2.tar.gz
安 装:
./bootstrap –prefix=/home/hadoop/software/cmake
make
make install
环境变量:
vim /etc/profile
export CMAKE_HOME=/opt/hadoop/software/cmake
PATH=$ CMAKE_HOME/bin:$PATH
验 证:cmake –version
5.安装其他依赖软件
yum install openssl-devel
yum install ncurses-devel
6.hadoop源码下载编译安装
下载地址:http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.4.0/hadoop-2.4.0-src.tar.gz
减 压:tar –xvf hadoop-2.4.0-src.tar.gz
编 译:
目录/opt/hadoop/hadoop-2.4.0-src中,执行命令
mvn package -DskipTests -Pdist,native
进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
环境变量:
vim /etc/profile
export HADOOP_PREFIX=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$PATH:HADOOP_PREFIX/bin
7.配置SSH免密码登陆
生成公钥和私钥
ssh-keygen -t rsa
进入 ~/.ssh 目录
cat id_rsa.pub >> authorized_keys
然后使用ssh localhost命令测试ssh是否配置正确
8.hadoop伪分布式配置
A.进入cd hadoop-2.4.0/etc/hadoop/
给所有的.sh 文件增加可执行权限
chmod +x *.sh
B.修改hadoop-env.sh
vim hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
修改为
export JAVA_HOME=/opt/hadoop/software/jdk-8u5
C.修改core-site.xml;注意:配置hdfs://localhost:9000中hadoop是主机名称, 使用hostname命令查看
在configuration节点中增加
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/hadoop/hadoop-2.4.0/data/tmp</value>
</property>
D.修改hdfs-site.xml
在configuration节点中增加
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
E.修改yarn-site.xml
在configuration节点中增加
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>localhost:8032</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>localhost:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop:8033</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>localhost:8030</value>
</property>
<property>
<name>yarn.web-proxy.address</name>
<value>localhost:8888</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
9.启动hadoop
A.格式化namenode
进入到hadoop安装目录的bin目录下执行:./hadoop namenode –format
B.启动伪分布式集群
进入到hadoop安装目录的sbin目录下执行:./start-all.sh
C.查看启动是否成功
执行jps命令成功结果如下:
7552 Jps
6858 SecondaryNameNode
6380 NameNode
6601 DataNode
7038 ResourceManager
7281 NodeManager
10.浏览器访问查看集群状态
http://localhost:50070
查看resourcemanager上cluster运行状态
http://http://hadoop1:8088/cluster:8088/cluster
11.运行hadoop自带的WordCount小程序(进入到hadoop安装目录的bin目录下)
第一步:./hadoop fs -mkdir -p myIn 在HDFS上创建文件夹myIn
第二步:本地目录下..创建几个文本文件,然后在里边写入单词, 如:fileA.txt, fileB.txt.
第三步:./hadoop fs -put file*.txt myIn // 将刚才的几个文件放入到hadoop的文件系统之中
第四步:./hadoop fs -cat input/file01.txt //查看刚刚文本中内容命令
第五步:执行
./hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
第六步:hadoop fs -ls output会显示生成的结果文件中
第七步:./hadoop fs -cat output/part-r-00000
第八步: (localhost:8088可以查看到正在运行任务的进度等信息)
第九步:hadoop中HDFS操作命令官网地址: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#lsr
+======================================准备工作/下载及安装软件 结束===============
或者:
sudo apt-get install maven
sudo apt-get install protobuf-compiler
sudo apt-get install cmake
sudo apt-get install zlib1g.dev
sudo apt-get install g++
sudo apt-get install libglib2.0-dev
sudo apt-get install libssl-dev
+======================================过程中遇到问题及解决办法=========开始===================
1.新建用户后终端只显示user@hostname ~, 正常(root@hadoop1:/usr/local/hadoop/sbin#)
解决:查看/etc/passwd该配置文件中,你新建的用户用的是不是bash,不是的话就改过来/ /.bashrc里面加上PS1="[\u@\h \W]\$"就可以了
2.格式化结点(数据结点也启不来) ./hadoop namenode -format
解决:把/opt/hadoop/hadoop2.4.0/data目录全部干掉, 因为之前已经格式化过了
3.ubuntu安装完成后, 如果是代理下上网的话,需要设置一下火狐浏览器的代理
4.修改主机名称
/etc/hostname文件中内容重启机器(utuntu),重启系统查看
5.执行./hdfs dfsadmin -report 后如下错误:
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform
??:可能是由于apache提供的32位hadoop版本, 而我们在64位机器上装, 需要在64位下编译
6.其它就是一些linux系统配置等问题
+======================================过程中遇到问题及解决办法==========结束=========================
发表评论
-
Uber模式测试
2015-07-09 16:15 692... -
Hadooop序列化框架使用
2015-07-03 11:03 765第一步:实现Writable接口(TestGenericWr ... -
hadoop 一些知识
2014-10-14 11:39 0Hadoop MapReduceV2(Yarn) 框架简介 ... -
hadoop记录
2014-07-17 09:14 612MapReduce的特征 1. 每个 ... -
Performance Tunning
2014-07-16 16:24 413「转自」http://langyu.iteye.com/bl ... -
hadoop2之YARN
2014-06-17 16:43 375YARN资源管理系统 产生背景: 1.源于MRV1的几 ... -
hadoop自带SORT
2014-06-09 17:41 0创建文件输入一下内容soso.txt: 60 51 60 ... -
合并文件内容MR
2014-06-09 16:25 0file01.txt 20081401,math,90,2 ... -
本地文件合并到HDFS
2014-06-09 15:42 0准备文件: import java.io.IOExce ... -
编写求平均之MR
2014-06-09 14:58 01.下载数据流http://data.nber.org/pa ... -
MR统计专利
2014-06-09 11:00 0下载专利文件:http://data.nber.org/pa ... -
hadoop MR统计最高气温
2014-06-06 17:52 0目前有3.5GB的文件 hadoop@hadoopMas ... -
hadoop word count
2014-06-05 17:35 0package wordCountTest; impo ... -
MapReduce计算后插入到HBase数据哭中
2014-06-05 17:06 0package com.hn.hbase; impor ... -
完全分布式下使用eclipse运行hadoop2.2.0的WordCount实例
2014-06-03 14:12 795... -
Hadoop 2.2.0编译hadoop-eclipse-plugin插件
2014-06-03 13:31 210下载:hadoop@hadoopSlave2:/opt/hn/ ... -
环境配置
2014-05-30 08:31 0ubuntu 12.04 64位系统上编译hadoop-2 ... -
ubuntu 12.04 64位搭建hadoop-2.2.0分布式环境
2014-06-04 13:33 43准备三台机器, 配置分别是: +============ ... -
ubuntu 12.04 64位系统下hadoop-2.2.0-src源码编译
2014-05-20 15:39 1472第零:配置yum源 yum install g ... -
hadop一些地址
2014-05-15 16:09 688hadoop在路上 http://www.kanka ...
相关推荐
#### 一、云服务器上搭建Hadoop伪分布式环境 ##### 1、软硬件环境 - **操作系统**: CentOS 7.2 64位 - **Java版本**: OpenJDK-1.8.0 - **Hadoop版本**: Hadoop-2.7 ##### 2、安装SSH客户端 为了能够在本地或其他...
要搭建一个本地或分布式Hadoop环境,您需要按照官方文档或相关教程进行配置,主要包括设置环境变量、修改配置文件(如core-site.xml、hdfs-site.xml和mapred-site.xml)、格式化NameNode以及启动Hadoop服务。...
### Hadoop 2.4 完全分布式环境安装与配置 #### 一、前置准备:Java环境搭建 在安装Hadoop之前,首先需要确保已经安装了Java环境,因为Hadoop是基于Java编写的。 1. **下载Java JDK** 从Oracle官方网站下载JDK ...
spark=2.4.0 sbt=1.3.8 flink=1.9.1 maven=3.6.3 建议配合主机的IntelliJ-IDEA的Bigdata拓展工具以及SSH服务进行远程操控使用。 3.本机密码都是“hadoop”。 4.mysql5.7用户名为"root",密码为"hadoop"。 5.使用...
1. **Hadoop安装和配置**:可能包含Hadoop 2.4.0的安装指南,包括环境配置、集群搭建、伪分布式模式或完全分布式模式的设置等。 2. **Hadoop核心组件**:Hadoop主要由HDFS(Hadoop Distributed File System)和...
在搭建Hadoop-2.4.0集群时,首先需要确保系统已安装必要的依赖包和工具,包括Maven 3.0或更高版本,Findbugs 1.3.9(如果要运行findbugs),ProtocolBuffer 2.5.0以及CMake 2.6或更新版本(如果要编译本地代码)。...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop Common是Hadoop项目的基础组件,包含了所有Hadoop模块共用的类库和工具,它为整个Hadoop生态系统提供了一系列通用服务。在...
《Spark 2.4.0 与 Hadoop 2.7 深度解析》 Apache Spark 是一个用于大规模数据处理的开源计算框架,它以其高效、易用和多模式的特点,深受大数据处理领域的青睐。Spark 2.4.0 版本是其发展过程中的一个重要里程碑,...
本文将深入探讨Hadoop 2.4.1在大数据处理中的应用,以及如何搭建一个单机模拟分布式Hadoop环境。 一、Hadoop概述 Hadoop是由Apache基金会开发的一个开源项目,其设计灵感来源于Google的MapReduce和GFS(Google ...
Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它将大数据分割成小块并分布在集群中的不同节点上进行计算。本文将详细介绍如何在 Linux 环境下(以 Ubuntu 为例)从零开始编译 Hadoop 2.4 版本,并解决编译...
通过以上内容,我们可以了解到,搭建Hadoop单机云平台不仅需要对Hadoop本身的安装和配置有深刻理解,还需要掌握与之相关的子组件集成技术,以及对搜索功能的优化和扩展。 总结以上知识点,Hadoop作为一个强大的大...
在搭建Hadoop集群的过程中,首先我们需要在Ubuntu 14.04系统上进行一系列的准备工作。本文将详细讲解如何创建Hadoop用户组、用户,安装JDK,配置SSH无密码登录,以及安装和配置Hadoop 2.4.0。 1. **创建Hadoop用户...
用户可以通过解压此文件,编译安装来搭建自己的Hadoop环境,进行分布式计算和数据存储。这个版本还包含了其他相关工具,如Hadoop命令行工具、Hadoop守护进程等,用于管理和操作Hadoop集群。 而hadoop-2.6.0-cdh...
Ubuntu 14.04作为一个稳定且广泛使用的Linux发行版,是搭建Hadoop集群的理想选择。本文将详细阐述如何在Ubuntu 14.04上进行Hadoop集群的搭建。 ### 1. 用户与权限设置 #### 1.1 创建Hadoop用户组 首先,为了管理...
以上就是Linux环境下搭建Spark开发环境的详细步骤,包括JDK、Scala、Hadoop的安装配置,以及Spark的分布式集群搭建。记得在每个步骤完成后进行相应的测试,确保环境的正确性。同时,搭建过程中遇到问题,可以参考...
实验环境搭建在Linux操作系统上,采用Hadoop 3.1.3、JDK 1.8和Spark 2.4.0版本。 ### 实验环境配置 1. **操作系统**:推荐使用Ubuntu 16.04或18.04,因其稳定性和对开源软件的良好支持。 2. **Hadoop**:Hadoop ...
Spark是大数据处理领域的一款热门框架,它提供了高效、弹性、分布式的计算能力。Hive则是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Spark与Hive的集成,使得用户...