`
- 浏览:
9267 次
- 性别:
- 来自:
北京
-
Ubuntu Hadoop环境搭建:
第一部分:下载JDK和HADOOP安装文件:
1. 下载jdk:
查看操作系统是32位还是64位,输入命令:sudo uname --m 如果显示 i586 则是32位,如果显示x86_64则是64位,得到此信息后,下载相应版本的JDK。下载网址是:http://www.oracle.com/technetwork/java/javase/downloads/
2. 下载hadoop:
网址是:http://hadoop.apache.org/releases.html
第二部分:安装java:
解压文件:tar -zxvf jdk-8u11-linux-x64.tar.gz 这时得到一个文件夹jdk1.8.0_11 (我选择的目录是/opt/jdk1.8.0_11,当然可以任意选择安装目录)
修改~/.bashrc 在该文件末尾加入如下语句:
export JAVA_HOME=/opt/jdk1.8.0_11
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
执行source ~/.bashrc立即生效该配置。注意只需要修改黑体部分也就是java的安装目录。
配置默认的JDK版本:
sudo update-alternatives --install /usr/bin/java java /opt/jdk1.8.0_11/bin/java 300
sudo update-alternatives --install /usr/bin/javac javac /opt/jdk1.8.0_11/bin/javac 300
sudo update-alternatives --install /usr/bin/javap javap /opt/jdk1.8.0_11/bin/javap 300
sudo update-alternatives --install /usr/bin/javadoc javadoc /opt/jdk1.8.0_11/bin/javadoc 300
同样的,只需要修改黑体部分的java的安装目录即可。
测试JAVA安装成功:输入 java 和 java -version测试,出现如下的结果表明安装过程正确并结束:
root@ubuntu:/opt/jdk1.8.0_11# java -version
java version "1.8.0_11"
Java(TM) SE Runtime Environment (build 1.8.0_11-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.11-b03, mixed mode)
第三部分:安装hadoop:
解压hadoop安装包到/opt/下,修改~/.bashrc添加hadoop的相关环境变量:
vi ~/.bashrc
export HADOOP_HOME=/opt/hadoop-1.2.1
export HADOOP_CLASSPATH=$HADOOP_HOME/build/classes
(说明:将要跑的class,jar包等程序一定要在这个目录下放一份,否则报错:Error: Could not find or load main class com.hadoop.mn.MaxTemperature)
export PATH=$HADOOP_HOME/bin:${PATH}
黑体部分可以自行定义。
修改$HADOOP_HOME/conf/hadoop-env.sh,添加 export JAVA_HOME=/opt/jdk1.8.0_11
工具一:使得UE能够FTP连接root用户:
在/etc/ftpusers文件中保存了,系统不允许FTP访问的用户列表,在这个列表中将root删掉即可。
# /etc/ftpusers: list of users disallowed FTP access. See ftpusers(5).
daemon
bin
sys
sync
games
man
lp
mail
news
uucp
nobody
工具二:配置和安装SSH
1. 输入命令ssh-keygen,其余的都回车就可以:
root@ubuntu:/# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
be:2c:48:43:9d:c9:67:50:a9:2c:0a:a9:fa:b2:cb:c0 root@ubuntu
The key's randomart image is:
+--[ RSA 2048]----+
| ... |
| . . |
| . + = |
|o o B o |
|.. o . oS |
|o . o . |
|oE . o . |
|= . .. . |
|o*. .o |
+-----------------+
2. 首先cd到目录/root,执行命令:cp .ssh/id_rsa.pub .ssh/authorized_keys
3. 测试 SSH安装, 输入命令 ssh localhost。
工具三:关于vi的实用命令:
/pattern<Enter> :向下查找pattern匹配字符串
?pattern<Enter>:向上查找pattern匹配字符串
使用了查找命令之后,使用如下两个键快速查找:
n:按照同一方向继续查找
N:按照反方向查找
输出结果:
root@ubuntu:/opt/hadoop-1.2.1/build/classes# hadoop com/hadoop/mn/NewMaxTemperature 1901 output
14/10/23 02:00:05 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/10/23 02:00:05 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
14/10/23 02:00:05 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
14/10/23 02:00:05 INFO input.FileInputFormat: Total input paths to process : 1
14/10/23 02:00:05 WARN snappy.LoadSnappy: Snappy native library not loaded
14/10/23 02:00:06 INFO mapred.JobClient: Running job: job_local693177873_0001
14/10/23 02:00:06 INFO mapred.LocalJobRunner: Waiting for map tasks
14/10/23 02:00:06 INFO mapred.LocalJobRunner: Starting task: attempt_local693177873_0001_m_000000_0
14/10/23 02:00:06 INFO util.ProcessTree: setsid exited with exit code 0
14/10/23 02:00:06 INFO mapred.Task: Using ResourceCalculatorPlugin : org.apache.hadoop.util.LinuxResourceCalculatorPlugin@2cc3897e
14/10/23 02:00:06 INFO mapred.MapTask: Processing split: file:/opt/hadoop-1.2.1/build/classes/1901:0+888190
14/10/23 02:00:06 INFO mapred.MapTask: io.sort.mb = 100
14/10/23 02:00:06 INFO mapred.MapTask: data buffer = 79691776/99614720
14/10/23 02:00:06 INFO mapred.MapTask: record buffer = 262144/327680
14/10/23 02:00:07 INFO mapred.JobClient: map 0% reduce 0%
14/10/23 02:00:07 INFO mapred.MapTask: Starting flush of map output
14/10/23 02:00:07 INFO mapred.Task: Task:attempt_local693177873_0001_m_000000_0 is done. And is in the process of commiting
14/10/23 02:00:07 INFO mapred.LocalJobRunner:
14/10/23 02:00:07 INFO mapred.Task: Task 'attempt_local693177873_0001_m_000000_0' done.
14/10/23 02:00:07 INFO mapred.LocalJobRunner: Finishing task: attempt_local693177873_0001_m_000000_0
14/10/23 02:00:07 INFO mapred.LocalJobRunner: Map task executor complete.
14/10/23 02:00:07 INFO mapred.Task: Using ResourceCalculatorPlugin : org.apache.hadoop.util.LinuxResourceCalculatorPlugin@67d3712a
14/10/23 02:00:07 INFO mapred.LocalJobRunner:
14/10/23 02:00:07 INFO mapred.Merger: Merging 1 sorted segments
14/10/23 02:00:07 INFO mapred.Merger: Down to the last merge-pass, with 0 segments left of total size: 0 bytes
14/10/23 02:00:07 INFO mapred.LocalJobRunner:
14/10/23 02:00:07 INFO mapred.Task: Task:attempt_local693177873_0001_r_000000_0 is done. And is in the process of commiting
14/10/23 02:00:07 INFO mapred.LocalJobRunner:
14/10/23 02:00:07 INFO mapred.Task: Task attempt_local693177873_0001_r_000000_0 is allowed to commit now
14/10/23 02:00:07 INFO output.FileOutputCommitter: Saved output of task 'attempt_local693177873_0001_r_000000_0' to output
14/10/23 02:00:07 INFO mapred.LocalJobRunner: reduce > reduce
14/10/23 02:00:07 INFO mapred.Task: Task 'attempt_local693177873_0001_r_000000_0' done.
14/10/23 02:00:08 INFO mapred.JobClient: map 100% reduce 100%
14/10/23 02:00:08 INFO mapred.JobClient: Job complete: job_local693177873_0001
14/10/23 02:00:08 INFO mapred.JobClient: Counters: 20
14/10/23 02:00:08 INFO mapred.JobClient: Map-Reduce Framework
14/10/23 02:00:08 INFO mapred.JobClient: Spilled Records=0
14/10/23 02:00:08 INFO mapred.JobClient: Map output materialized bytes=6
14/10/23 02:00:08 INFO mapred.JobClient: Reduce input records=0
14/10/23 02:00:08 INFO mapred.JobClient: Virtual memory (bytes) snapshot=0
14/10/23 02:00:08 INFO mapred.JobClient: Map input records=6565
14/10/23 02:00:08 INFO mapred.JobClient: SPLIT_RAW_BYTES=106
14/10/23 02:00:08 INFO mapred.JobClient: Map output bytes=0
14/10/23 02:00:08 INFO mapred.JobClient: Reduce shuffle bytes=0
14/10/23 02:00:08 INFO mapred.JobClient: Physical memory (bytes) snapshot=0
14/10/23 02:00:08 INFO mapred.JobClient: Reduce input groups=0
14/10/23 02:00:08 INFO mapred.JobClient: Combine output records=0
14/10/23 02:00:08 INFO mapred.JobClient: Reduce output records=0
14/10/23 02:00:08 INFO mapred.JobClient: Map output records=0
14/10/23 02:00:08 INFO mapred.JobClient: Combine input records=0
14/10/23 02:00:08 INFO mapred.JobClient: CPU time spent (ms)=0
14/10/23 02:00:08 INFO mapred.JobClient: Total committed heap usage (bytes)=505110528
14/10/23 02:00:08 INFO mapred.JobClient: File Input Format Counters
14/10/23 02:00:08 INFO mapred.JobClient: Bytes Read=888190
14/10/23 02:00:08 INFO mapred.JobClient: FileSystemCounters
14/10/23 02:00:08 INFO mapred.JobClient: FILE_BYTES_WRITTEN=100924
14/10/23 02:00:08 INFO mapred.JobClient: FILE_BYTES_READ=1776712
14/10/23 02:00:08 INFO mapred.JobClient: File Output Format Counters
14/10/23 02:00:08 INFO mapred.JobClient: Bytes Written=8
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
hadoop配置运行错误解决方法 hadoop是一个大数据处理的基础架构,但是在实际使用过程中经常会碰到各种各样的问题,以下是解决hadoop配置运行错误的一些经验总结: 一、hadoop集群在namenode格式化后重启集群会出现...
这个“Hadoop入门程序java源码”是为初学者准备的,目的是帮助他们快速掌握如何在Hadoop环境中编写和运行Java程序。Hadoop的主要组件包括HDFS(Hadoop分布式文件系统)和MapReduce,这两个部分将在下面详细介绍。 ...
"hadopp Windows 运行环境"提供的驱动包可能包含了这些兼容性的解决方案,比如预先配置好的Winutils.exe,这是一个Windows版本的Hadoop实用程序,可以执行类似于Linux上的Hadoop命令。此外,它可能还包括了Hadoop...
### Ubuntu 下的Hadoop配置与运行 #### 一、系统配置与环境搭建 **资源需求:** 1. **操作系统:** Linux Ubuntu 9.10(虽然提到的是 Ubuntu 9.10,但为了兼容性和稳定性考虑,建议使用较新的 LTS 版本,如 Ubuntu...
9. **测试Hadoop**:可以通过上传文件到HDFS并运行简单的MapReduce程序来验证安装是否成功。 这个视频教程可能详细讲解了上述步骤,包括可能出现的问题及解决方案。学习过程中,注意每个步骤的细节,理解配置文件中...
4. **配置Hadoop配置文件**: - **core-site.xml**:定义HDFS的基本属性,如`fs.defaultFS`,设置为`hdfs://localhost:9000`表示HDFS的NameNode运行在本地主机的9000端口。 - **hdfs-site.xml**:配置HDFS的参数,...
之后需要下载Hadoop软件,解压,并配置Hadoop运行环境,格式化HDFS(Hadoop分布式文件系统),启动Hadoop环境并运行程序进行测试,最后查看集群状态确认安装和运行情况是否正常。 2. 集群Hadoop系统安装基本步骤 ...
2. **JAVA-ADT和Hadoop配置**:实验目的是通过安装JAVA-ADT(Java Advanced Data Types)和配置Hadoop,理解Hadoop的基础知识和基本应用。Hadoop是Apache开源项目,用于大数据处理的分布式计算框架,基于Java语言...
1. **配置Hadoop**:修改`hadoop-env.cmd`(在`conf`目录下),设置`HADOOP_HOME`指向Hadoop的安装目录,并配置`HADOOP_OPTS`以添加必要的Java参数。 2. **配置HDFS**:编辑`hdfs-site.xml`,设置`dfs.replication`...
- 执行 `bin/hadoop jar hadoop-0.20.2-examples.jar wordcount input output` 来运行 WordCount 程序,其中 `input` 是 HDFS 上的输入目录,`output` 是输出结果的目录。 6. **查看输出结果**: - 使用 `bin/...
- `zookeeper-*.jar`:如果Hadoop配置中使用Zookeeper,也需要这个JAR。 4. **Eclipse插件**:为了更方便地管理Hadoop项目,可以安装Hadoop插件,如Hadoop IDE插件(如Hadoop Tools for Eclipse),它可以提供更好...
3. **运行WordCount程序**:调用Hadoop自带的Java程序`hadoop-mapreduce-examples-2.7.7.jar`,指定输入和输出参数。 ### 四、实验结果 成功运行WordCount后,可以在指定的输出文件夹(例如/output)中看到统计...
Hadoop安装配置知识点: 一、Hadoop简介 Hadoop是云计算的基础,它是一个分布式系统的基础架构,被广泛应用于云计算的分布式存储和计算中。Hadoop设计用来从单一服务器扩展到数千台机器,每台机器提供本地计算和...
这些设置完成后,Hadoop集群能够建立起一个分布式计算环境,使得Java程序能够调用Matlab的功能来处理数据。 此外,对于Java程序而言,它需要通过Hadoop的Java API来实现对HDFS文件系统的访问以及提交MapReduce任务...
4. **安装Java程序开发工具:IntelliJ IDEA**:选择一个合适的版本下载安装,这里推荐使用Ultimate版,它提供了更多高级功能支持,如Maven和Hadoop集成。 5. **导包完成**:在IntelliJ IDEA中创建一个新的Maven项目...
`hadoop-env.sh`是Hadoop配置中的一个脚本文件,主要用于定义运行Hadoop进程所需的环境变量。其中最重要的是`JAVA_HOME`环境变量的设置: ```bash export JAVA_HOME=/home/hadoop/app/jdk1.8.0_45/ ``` 这里指定了...
总之,要在Windows下的Eclipse环境中成功运行MapReduce程序,关键在于正确配置Hadoop环境,导入所有必要的jar包,并理解如何设置和提交MapReduce作业。这个过程可能需要一些时间和实践,但一旦配置完成,将为高效...
Linux下的Hadoop配置和使用是大数据处理领域的重要环节,它基于Apache基金会开发的分布式系统基础架构,旨在简化在分布式环境中开发和运行程序的过程。Hadoop的核心组件包括分布式文件系统(Hadoop Distributed File...
4. 配置Hadoop:修改Hadoop配置文件,如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,设置相关参数,如NameNode和DataNode地址、内存大小等。 5. 初始化HDFS:执行hadoop namenode -format命令...