最近准备倒腾spark.网上的搭建过程感觉都相当的长,自己在用virtual box搞了3台centos 7虚拟机,搭建了一次,发现可以不用那么复杂.就把自己的过程写下来.
过程就分几步:
- 系统准备工作.
- ssh免密码登录.
- 环境变量
- hadoop配置
- spark配置
- 测试
1.系统准备工作
首先是操作系统安装
iso镜像,建议选择DVD,不要用minimal.不然后面少各种命令.也是个麻烦.
新建虚拟机的时候,网络类型可以选仅主机(host only)网络,这样没接网线的时候也可以用.挂载iso镜像,一路下一步.选择Basic web server就了事了. ip最好还是改成静态.要是dhcp, 虚拟分配到的ip不是固定的.ip也可以在安装完毕以后再设置也可以. 用nmtui命令配置网络,也是图形界面了.难度不大.
以下操作都在root用户下面执行,并且每台上面都要运行
安装java,这里安装了jdk8
mount /dev/cdrom /media/cdrom/
yum --disablerepo=\* --enablerepo=c7-media install java-1.8.0-openjdk-devel
安装好以后测试一下
javac -version
修改/etc/hosts
192.168.56.12 slave1
192.168.56.13 slave2
ip请根据实际情况填写
修改 /etc/hostname
按照机器所处的角色.每台分别写入master, slave1,slave2
为了不必要的麻烦,把防火墙设置为受信区域.省得麻烦.
firewall-cmd --set-default-zone=trusted systemctl restart firewalld
2.ssh免密码登录.
创建hadoop运行用户
adduser -U hadoop passwd hadoop #设置密码 #测试一下,顺便生成密钥,设置免密码登录 su hadoop ssh-keygen #一路回车 ssh-copy-id hadoop@master ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2 exit
重启虚拟机.
首先把hadoop和spark的压缩包上传到master的/home/hadoop目录下面.
我的压缩包分别是 hadoop-2.6.4.tar.gz spark-1.6.1-bin-hadoop2.6.tgz
3.安装包和环境变量准备
以下操作都在master上以hadoop用户执行
直接解压
tar -xf ./hadoop-2.6.4.tar.gz tar -xf ./spark-1.6.1-bin-hadoop2.6.tgz
修改 ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk export HADOOP_HOME=/home/hadoop/hadoop-2.6.4 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export SPARK_HOME=/home/hadoop/spark-1.6.1-bin-hadoop2.6 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin #如果你的java,hadoop,spark版本不同,请修改相应的路径
加载刚刚的设置
source ~/.bashrc
4.hadoop安装.
创建临时文件目录
cd ~/hadoop-2.6.4 mkdir tmp
修改etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop-2.6.4/tmp</value> </property> </configuration>
修改etc/hadoop/hdfs-site.xml, 3份复制
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> </configuration>
创建文件etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
修改etc/hadoop/yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> </configuration>
修改 etc/hadoop/slaves
master slave1 slave2
把配置好的hadoop也复制到slave1,slave2
scp -r ~/hadoop-2.6.4 slave1:/home/hadoop/ scp -r ~/hadoop-2.6.4 slave2:/home/hadoop/
hdfs准备
hdfs namenode -format start-dfs.sh
如果启动过程中,出现ssh登录的指纹信息,直接输入yes确认.
启动完毕以后可以用jps,在每台机器上看一下.
master上有,
SecondaryNameNode
DataNode
NameNode
而slave上只有datanode
运行
start-yarn.sh
再用jps看看. master上会多出ResourceManager 和 NodeManager, 而slave只多出来NodeManager
5.spark安装
如果要用scala,需要安装,我用python,暂时就不安装了
cd ~/spark-1.6.1-bin-hadoop2.6/ cp conf/spark-env.sh.template conf/spark-env.sh
修改conf/spark-env.sh,加入一下内容, ip填入master的实际ip
export SPARK_MASTER_IP=192.168.56.11 export SPARK_WORKER_MEMORY=512m #内存可以看情况 export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.6.4/etc/hadoop
复制slaves文件模板
cp conf/slaves.template conf/slaves
conf/slaves加入一下内容
master slave1 slave2
配置完毕,复制到slave机器
scp -r ~/spark-1.6.1-bin-hadoop2.6 hadoop@slave1:/home/hadoop scp -r ~/spark-1.6.1-bin-hadoop2.6 hadoop@slave2:/home/hadoop
启动
start-all.sh
6.测试
hdfs dfs -copyFromLocal ~/spark-1.6.1-bin-hadoop2.6/README.md / pyspark print sc.textFile('/README.md').cache().count()
相关推荐
总之,GCC在Linux环境中的安装和使用是开发者必备的技能之一。确保选择与系统和依赖库兼容的GCC版本,并正确配置和安装,对于避免编译错误和优化性能至关重要。同时,理解如何管理和切换不同的GCC版本,有助于在不同...
安装虚拟机及 CentOS 问题解决方案 在本篇文章中,我们将探讨如何安装虚拟机并解决 CentOS 相关问题。虚拟机是一种非常流行的技术,可以让我们在一台物理机器上运行多个操作系统,从而提高硬件资源的利用率。 安装...
cento8.3安装docker
CentOS7离线安装最新版本Podman-4.1.1版本。 当前容器的发展,对Docker逐渐远离,拥抱Containerd和Podman,目前Podman操作基本与Docker一致,让用户从Docker迁移至Podman成为了可能。 由于CentOS7.9默认安装的都是...
Centos7 上安装 Oracle 11g R2 需要经过多个步骤,包括环境准备、安装包准备、创建系统用户和用户组、安装目录创建、修改 OS 系统标识、关闭防火墙和 SELinux、修改内核参数、配置用户环境变量、解压安装包等。...
总的来说,这个资源为那些需要在CentOS 7环境中使用GCC 4.8.5的开发者提供了方便,允许他们在无网络连接的情况下快速安装和使用该编译器。然而,需要注意的是,跳过依赖检查和强制安装可能会带来潜在的问题,所以在...
通过上述步骤,您可以在VMware中的CentOS系统上成功安装并配置好Hadoop集群。这对于学习和测试Hadoop生态系统是非常有用的。此外,熟悉这些配置步骤也有助于更好地理解Hadoop的工作原理及其与其他组件(如JDK)之间...
Linux centos7环境下安装Nginx的步骤详解 1、 首先到Nginx官网下载Nginx安装包 下载好后会见到类似下面的一份文件 创建nginx-src目录并且去到nginx-src目录里运行如下命令即可: mkdir nginx-src && cd nginx-src ...
在本教程中,我们将深入探讨如何在CentOS 7.9最小化安装环境中部署Kubernetes(简称k8s)版本1.25.3。Kubernetes是一个开源的容器编排系统,用于自动化容器化应用程序的部署、扩展和管理。CentOS作为一款稳定的Linux...
根据...CentOS7镜像太大上传不了,我测试是纯净系统下完全没有问题的。如果发现错误可以留言告知,我再修改下。 使用yum localinstall *.rpm -y命令安装,不要建议用忽略的命令,出问题就是坑人的。
kubernetes 自动化安装kubeedge 1.8.0,集成edgemesh 最新版本,无坑。有edgemesh场景测试示例。可按需改动安装脚本版本
本文将为您详细介绍如何在 CentOS 7 上正确安装伪分布 Hadoop 2.7.2 和配置 Eclipse。 一、创建 Hadoop 用户 在安装 Hadoop 之前,需要创建一个名为 Hadoop 的用户。首先,点击左上角的“应用程序”->“系统工具”...
VASP安装教程(centos) VASP(Vienna Ab initio Simulation Package)是一款功能强大的从头算电子结构模拟软件包,在材料科学、 Condensed Matter Physics 和化学领域中广泛应用。VASP安装教程(centos)提供了在 ...
hadoop 3.2.0在(win10+cento7+vmware)环境的配置文件,包括/etc/profile和hadoop安装目录下etc/hadoop文件下的文件:hadoop-env.sh,mapred-env.sh,yarn-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-...
#只适用Cento\Redhat6、7系类操作系统,其他系统没有测试过 安装前确认相关依赖已经安装完成 yum install gcc-c++ perl-devel.x86_64 pam-devel -y 执行 chmod +x sshupdate.sh sh sshupdate.sh 执行升级即可...
在CentOS7下,默认安装的就是python2.7,我现在来教大家如何安装python3: 1、首先安装python3.6可能使用的依赖 # yum -y install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel zlib-devel 2...
在Linux环境中,特别是服务器系统,有时需要在没有网络的情况下安装软件。本教程将详细介绍如何在CentOS 7.2系统中离线安装Docker。Docker是一个开源的应用容器引擎,它允许开发者打包他们的应用以及依赖包到一个可...