`

Spark-环境搭建

 
阅读更多

 

 

搭建hadoop集群

hadoop2.7.3 + spark1.6.1 + scala2.11.8 + jdk1.8.0_101

下载hadoop2.7,修改$HADOOP_HOME/etc/hadoop下的hadoop-env.sh文件

 

export JAVA_HOME=/soft/jdk1.8.0_101
 

 

修改core-site.xml文件(这里讲将数据目录data就放在$HADOOP_HOME下了

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.186.128:9000</value>
    </property>

    <property>
        <name>hadoop.tmp.dir</name>
        <value>/root/spark/hadoop-2.7.3/data</value>
    </property>
</configuration>
 

 

修改hdfs-site.xml文件

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

 

 

先格式化

$HADOOP_HOME/bin/hdfs namenode -format
 

 

启动namenode和datanode

./hadoop-daemon.sh start namenode
./hadoop-daemon.sh start datanode 
 

 

关闭iptables

service iptables stop 
chkconfig --level 35 iptables off

 

修改hostname

#几个修改方式
hostname 【主机名】
vim /etc/sysconfig/network
sysctl kernel.hostname
vim /etc/hosts

 

 

 

 

 

搭建hadoop yarn

修改yarn-en.sh

JAVA=/soft/jdk1.8.0_101/bin/java
  

 

修改yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <property>
        <name>yarn.resourcemanager.hostname</name>
         <value>vm128</value>
    </property>
</configuration>
 

 

启动节点

./yarn-daemon.sh start resourcemanager
./yarn-daemon.sh start nodemanager
 

 

 

 

 

 

搭建spark

下载scala,安装最新版本即可,然后配置scala home

JAVA_HOME=/soft/jdk1.8.0_101
SCALA_HOME=/root/spark/scala-2.11.8
PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:

export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL JAVA_HOME SCALA_HOME
  

 

修改$SPARK_HOME/conf下的 spark-env.sh

export SCALA_HOME=/root/spark/scala-2.11.8
export JAVA_HOME=/soft/jdk1.8.0_101
export SPARK_MASTER_IP=192.168.186.128
export SPARK_WORKER_MEMORY=512M
export HADOOP_CONF_DIR=/root/spark/hadoop-2.7.3/etc/hadoop
 

 

启动节点

$SPARK_HOME/bin/start-master.sh
./start-slave.sh spark://192.168.186.128:7077
 

 

jps结果

NameNode和DataNode是hdfs进程

ResourceManager和NodeManager是YARN进程

Master和Worker是spark进程

6368 Master
7666 Jps
6756 Worker
4343 DataNode
5052 NodeManager
4446 NameNode
4798 ResourceManager
 

 

 

 

 

 

运行简单例子

$SPARK_HOME/bin/spark-shell

 先上传一个文件到hdfs中

$HADOOP_HOME/bin/./hdfs dfs -mkdir /test
./hdfs dfs -put /root/spark/spark-2.0.0-bin-hadoop2.7/conf/spark-defaults.conf.template /test/xx

var textFile = sc.textFile("hdfs://192.168.186.128:9000/test/xx") 
var line = textFile.filter(line=>line.contains("spark"))

#执行count后就可以计算了
line.count()

#map,filter,collect函数
sc.parallelize(1 to 100).map(_*2).filter(_>50).filter(_<180).collect

 

web UI端口

#hadoop界面
http://192.168.186.128:50070/dfshealth.html#tab-datanode

#yarn界面
http://192.168.186.128:8088/cluster/apps/RUNNING

#spark界面
http://192.168.186.128:8080/

#spark-shell启动后的任务监控界面
http://192.168.186.134:4040/

 

 

 

 

 

参考

Hadoop 2.6.4分布式集群环境搭建

Spark 1.6.1分布式集群环境搭建

Spark 简单实例(基本操作)

Spark 入门实战之最好的实例

 

 

 

分享到:
评论

相关推荐

    spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址

    这些文件对于搭建Spark与Hive交互的环境至关重要。 在实际使用中,首先需要解压缩这些文件,然后配置Spark的`spark-defaults.conf`文件以指向Hive的元数据存储位置(如HDFS或本地文件系统上的metastore_db)。接着...

    spark-1.6.0-bin-hadoop2.6.tgz

    这个安装包为在Linux环境中搭建Spark集群提供了必要的组件和库。 **1. Spark基础知识** Spark的核心设计是基于分布式内存计算模型,它引入了Resilient Distributed Datasets (RDDs)的概念,这是一种可分区的、只读...

    spark-2.2.2-bin-hadoop2.7.tgz

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用性著称。Spark 2.2.2是该框架的...通过这个压缩包,你可以快速搭建Spark环境,开始探索其在数据科学、机器学习和实时分析等领域的广泛应用。

    spark-2.3.0-bin-hadoop2.7版本.zip

    综上所述,"spark-2.3.0-bin-hadoop2.7版本.zip"是一个包含了完整的Spark 2.3.0发行版,集成了Hadoop2.7的环境,可供开发者在本地或集群环境中快速搭建Spark开发和测试环境。这个版本的Spark不仅在核心功能上有所...

    Spark-开发环境搭建.md

    Spark-开发环境搭建.md

    spark-2.4.0-bin-hadoop2.7

    《Spark 2.4.0 与 Hadoop 2.7 深度解析》 Apache Spark 是一个用于大规模数据处理的开源计算框架,它以其高效、易用和多...开发者和数据科学家可以通过这个压缩包,快速搭建 Spark 集群,开启他们的大数据探索之旅。

    spark-2.4.5-bin-without-hadoop.tgz (关注“吾说”(作者)一起学习大数据.rar)

    spark-2.4.5-bin-without-hadoop.tgz (关注“吾说”(作者)一起学习大数据.rar) 一站式搭建sparkstreaming环境见该博客https://blog.csdn.net/wrwhahah/article/details/105716359

    spark-2.1.1-bin-hadoop2.7.tar.gz

    总的来说,"spark-2.1.1-bin-hadoop2.7.tar.gz"提供了在Hadoop 2.7环境中运行Spark所需要的所有组件和配置,使得用户能够快速地搭建起一个大数据处理平台,进行高效的数据分析和处理工作。无论是数据科学家、开发者...

    spark-1.3.1-bin-hadoop2.6.tgz

    3. **环境搭建** - **Linux环境**:需要安装Java运行环境,配置SPARK_HOME和PATH环境变量,解压安装包到指定目录,然后可以通过启动master和worker进程来启动Spark集群。 - **Windows环境**:同样需要Java环境,...

    spark-Bench环境搭建文档.pdf

    Spark-Bench 环境搭建文档 在本文档中,我们将详细介绍如何搭建 Spark-Bench 运行环境。在搭建过程中,我们会遇到一些错误,这些错误将一一解决。 首先,在编译wikixmlj工程时,我们需要使用 Maven 进行编译。在...

    spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

    Standalone模式是Spark自带的资源管理器,可以快速地在多台机器上搭建Spark集群。而YARN模式则利用了CDH中的资源管理系统,使Spark作业能在更大的Hadoop集群上运行。若要部署在YARN上,需要配置Spark的conf目录中的...

    spark-2.3.0-bin-hadoop277-without-hive.tgz

    spark2.3.0 without hive 编译版本,用于Hive on Spark 环境搭建 ./dev/make-distribution.sh --name "hadoop277-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided" -...

    spark-1.6.2-bin-hadoop2.6.gz

    这个压缩包通常用于大数据开发环境的快速搭建,避免了开发者需要从源代码编译整个Spark和Hadoop的复杂过程,同时也省去了从官方仓库下载可能耗时较长的问题。 在使用这个压缩包时,首先需要将其解压到服务器或本地...

    hadoop-2.7-spark-2.1-搭建

    搭建一个Hadoop 2.7和Spark 2.1的集群环境是一项复杂的工作,涉及到多个步骤,包括系统配置、软件安装、集群配置以及服务启动。在这个过程中,我们需要对Linux操作系统有基本的了解,掌握用户管理和文件权限控制,...

    spark-1.6.1-bin-hadoop2.6.zip (缺spark-examples-1.6.1-hadoop2.6.0.jar)

    总的来说,Spark-1.6.1-bin-hadoop2.6.zip是一个用于搭建Spark环境的基础,尽管缺少示例JAR,但仍然足以启动和运行Spark应用程序。如果你是初学者,建议从官方文档和在线教程开始学习,逐步了解Spark的各种功能和...

    kafka_2.11-0.11.0.0.tgz + spark-streaming-kafka-0-8-assembly_2.11-2.4.5.jar

    kafka_2.11-0.11.0.0.tgz + spark-streaming-kafka-0-8-assembly_2.11-2.4.5.jar 一站式搭建sparkstreaming环境见该博客https://blog.csdn.net/wrwhahah/article/details/105716359

    Spark集群及开发环境搭建(完整版)

    ### Spark集群及开发环境搭建(完整版) #### 一、软件及下载 本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作...

    Spark环境搭建-Windows

    Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...

    3.Spark编程模型(下)--IDEA搭建及实战.pdf

    2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--...

Global site tag (gtag.js) - Google Analytics