`
小施_重名后缀
  • 浏览: 1305 次
社区版块
存档分类
最新评论

cento7下,spark集群环境快速安装

阅读更多

最近准备倒腾spark.网上的搭建过程感觉都相当的长,自己在用virtual box搞了3台centos 7虚拟机,搭建了一次,发现可以不用那么复杂.就把自己的过程写下来.

过程就分几步:

  1.  系统准备工作.
  2. ssh免密码登录.
  3. 环境变量
  4. hadoop配置
  5. spark配置
  6. 测试

1.系统准备工作

 

首先是操作系统安装

iso镜像,建议选择DVD,不要用minimal.不然后面少各种命令.也是个麻烦.

 

 

新建虚拟机的时候,网络类型可以选仅主机(host only)网络,这样没接网线的时候也可以用.挂载iso镜像,一路下一步.选择Basic web server就了事了. ip最好还是改成静态.要是dhcp, 虚拟分配到的ip不是固定的.ip也可以在安装完毕以后再设置也可以.  用nmtui命令配置网络,也是图形界面了.难度不大.

 

以下操作都在root用户下面执行,并且每台上面都要运行

 

安装java,这里安装了jdk8

mkdir /media/cdrom/
mount /dev/cdrom /media/cdrom/

yum --disablerepo=\* --enablerepo=c7-media install java-1.8.0-openjdk-devel

 

安装好以后测试一下

java -version
javac -version

 

 

 

修改/etc/hosts

写入
192.168.56.11 master
192.168.56.12 slave1
192.168.56.13 slave2

 ip请根据实际情况填写

 

修改 /etc/hostname

按照机器所处的角色.每台分别写入master, slave1,slave2

 

为了不必要的麻烦,把防火墙设置为受信区域.省得麻烦.

 

firewall-cmd --set-default-zone=trusted

systemctl restart firewalld

 

 

2.ssh免密码登录.

 

创建hadoop运行用户

 

adduser -U hadoop
passwd hadoop #设置密码

#测试一下,顺便生成密钥,设置免密码登录
su hadoop
ssh-keygen #一路回车
ssh-copy-id hadoop@master
ssh-copy-id hadoop@slave1
ssh-copy-id hadoop@slave2
exit

 

重启虚拟机.

 

首先把hadoop和spark的压缩包上传到master的/home/hadoop目录下面.

我的压缩包分别是 hadoop-2.6.4.tar.gz  spark-1.6.1-bin-hadoop2.6.tgz

 

3.安装包和环境变量准备

 

以下操作都在master上以hadoop用户执行

 

直接解压

 

tar -xf ./hadoop-2.6.4.tar.gz
tar -xf ./spark-1.6.1-bin-hadoop2.6.tgz

 修改 ~/.bashrc

 

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

export HADOOP_HOME=/home/hadoop/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin


export SPARK_HOME=/home/hadoop/spark-1.6.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

#如果你的java,hadoop,spark版本不同,请修改相应的路径

 

 

加载刚刚的设置

 

source ~/.bashrc

 

 

 

 

4.hadoop安装.

创建临时文件目录

 

cd ~/hadoop-2.6.4
mkdir tmp

 

 

修改etc/hadoop/core-site.xml

 

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop-2.6.4/tmp</value>
    </property>
</configuration>

 

 

 

修改etc/hadoop/hdfs-site.xml, 3份复制

 

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

 

 

创建文件etc/hadoop/mapred-site.xml

 

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

 

 

 

修改etc/hadoop/yarn-site.xml

 

 

<configuration>

<!-- Site specific YARN configuration properties -->
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>

</configuration>

 

 

 

修改 etc/hadoop/slaves

 

master
slave1
slave2

 

 

把配置好的hadoop也复制到slave1,slave2

 

scp -r ~/hadoop-2.6.4     slave1:/home/hadoop/
scp -r ~/hadoop-2.6.4     slave2:/home/hadoop/

 

hdfs准备

 

 

hdfs namenode -format
start-dfs.sh

如果启动过程中,出现ssh登录的指纹信息,直接输入yes确认.

 

 

启动完毕以后可以用jps,在每台机器上看一下.

master上有,

SecondaryNameNode

DataNode

NameNode

而slave上只有datanode

 

运行

 

start-yarn.sh

 

 

再用jps看看. master上会多出ResourceManager 和 NodeManager, 而slave只多出来NodeManager

 

5.spark安装

如果要用scala,需要安装,我用python,暂时就不安装了

 

 

cd ~/spark-1.6.1-bin-hadoop2.6/
cp conf/spark-env.sh.template conf/spark-env.sh

 

 

修改conf/spark-env.sh,加入一下内容, ip填入master的实际ip

 

export SPARK_MASTER_IP=192.168.56.11
export SPARK_WORKER_MEMORY=512m
#内存可以看情况
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.6.4/etc/hadoop

 

 

复制slaves文件模板

cp conf/slaves.template conf/slaves

conf/slaves加入一下内容

master
slave1
slave2

 

 

配置完毕,复制到slave机器

scp -r ~/spark-1.6.1-bin-hadoop2.6    hadoop@slave1:/home/hadoop
scp -r ~/spark-1.6.1-bin-hadoop2.6    hadoop@slave2:/home/hadoop

 

启动

start-all.sh 

 

 

6.测试

hdfs dfs -copyFromLocal ~/spark-1.6.1-bin-hadoop2.6/README.md /

pyspark
print sc.textFile('/README.md').cache().count()

 

 

分享到:
评论

相关推荐

    GCC Cento Linux安装说明

    总之,GCC在Linux环境中的安装和使用是开发者必备的技能之一。确保选择与系统和依赖库兼容的GCC版本,并正确配置和安装,对于避免编译错误和优化性能至关重要。同时,理解如何管理和切换不同的GCC版本,有助于在不同...

    安装虚拟机以及cento问题

    安装虚拟机及 CentOS 问题解决方案 在本篇文章中,我们将探讨如何安装虚拟机并解决 CentOS 相关问题。虚拟机是一种非常流行的技术,可以让我们在一台物理机器上运行多个操作系统,从而提高硬件资源的利用率。 安装...

    cento8.3安装docker

    cento8.3安装docker

    CentOS7离线安装最新版本Podman-4.1.1版本

    CentOS7离线安装最新版本Podman-4.1.1版本。 当前容器的发展,对Docker逐渐远离,拥抱Containerd和Podman,目前Podman操作基本与Docker一致,让用户从Docker迁移至Podman成为了可能。 由于CentOS7.9默认安装的都是...

    Centos7上安装oracle 11g R2(测试成功)

    Centos7 上安装 Oracle 11g R2 需要经过多个步骤,包括环境准备、安装包准备、创建系统用户和用户组、安装目录创建、修改 OS 系统标识、关闭防火墙和 SELinux、修改内核参数、配置用户环境变量、解压安装包等。...

    cento7镜像 gcc4.8.5.rar

    总的来说,这个资源为那些需要在CentOS 7环境中使用GCC 4.8.5的开发者提供了方便,允许他们在无网络连接的情况下快速安装和使用该编译器。然而,需要注意的是,跳过依赖检查和强制安装可能会带来潜在的问题,所以在...

    在VWmare的CentO S系统中配置hadoop

    通过上述步骤,您可以在VMware中的CentOS系统上成功安装并配置好Hadoop集群。这对于学习和测试Hadoop生态系统是非常有用的。此外,熟悉这些配置步骤也有助于更好地理解Hadoop的工作原理及其与其他组件(如JDK)之间...

    Linux centos7环境下Nginx安装教程

    Linux centos7环境下安装Nginx的步骤详解 1、 首先到Nginx官网下载Nginx安装包 下载好后会见到类似下面的一份文件 创建nginx-src目录并且去到nginx-src目录里运行如下命令即可: mkdir nginx-src && cd nginx-src ...

    CentOS 7.9 最小化安装 kubernetes(k8s)1.25.3(免费下载)

    在本教程中,我们将深入探讨如何在CentOS 7.9最小化安装环境中部署Kubernetes(简称k8s)版本1.25.3。Kubernetes是一个开源的容器编排系统,用于自动化容器化应用程序的部署、扩展和管理。CentOS作为一款稳定的Linux...

    Linux CentOS7 离线安装gcc等rpm包集合,测试通过无错误

    根据...CentOS7镜像太大上传不了,我测试是纯净系统下完全没有问题的。如果发现错误可以留言告知,我再修改下。 使用yum localinstall *.rpm -y命令安装,不要建议用忽略的命令,出问题就是坑人的。

    kubeedge 安装部署(适用于centos)

    kubernetes 自动化安装kubeedge 1.8.0,集成edgemesh 最新版本,无坑。有edgemesh场景测试示例。可按需改动安装脚本版本

    在centos7下正确安装伪分布hadoop2.7.2和配置eclipse.doc

    本文将为您详细介绍如何在 CentOS 7 上正确安装伪分布 Hadoop 2.7.2 和配置 Eclipse。 一、创建 Hadoop 用户 在安装 Hadoop 之前,需要创建一个名为 Hadoop 的用户。首先,点击左上角的“应用程序”-&gt;“系统工具”...

    VASP安装教程(centos)

    VASP安装教程(centos) VASP(Vienna Ab initio Simulation Package)是一款功能强大的从头算电子结构模拟软件包,在材料科学、 Condensed Matter Physics 和化学领域中广泛应用。VASP安装教程(centos)提供了在 ...

    centos7系统中的hadoop3.2.0的配置文件.rar

    hadoop 3.2.0在(win10+cento7+vmware)环境的配置文件,包括/etc/profile和hadoop安装目录下etc/hadoop文件下的文件:hadoop-env.sh,mapred-env.sh,yarn-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-...

    Cento\Redhat6、7系类操作系统一键升级openssh-8.8p1、openssl-1.1.1m

    #只适用Cento\Redhat6、7系类操作系统,其他系统没有测试过 安装前确认相关依赖已经安装完成 yum install gcc-c++ perl-devel.x86_64 pam-devel -y 执行 chmod +x sshupdate.sh sh sshupdate.sh 执行升级即可...

    Linux CentOS7下安装python3 的方法

    在CentOS7下,默认安装的就是python2.7,我现在来教大家如何安装python3: 1、首先安装python3.6可能使用的依赖 # yum -y install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel zlib-devel 2...

    CentOS7环境下离线docker安装包

    在Linux环境中,特别是服务器系统,有时需要在没有网络的情况下安装软件。本教程将详细介绍如何在CentOS 7.2系统中离线安装Docker。Docker是一个开源的应用容器引擎,它允许开发者打包他们的应用以及依赖包到一个可...

Global site tag (gtag.js) - Google Analytics