先安装jdk:
sudo apt-get update
sudo apt-get install default-jre
sudo apt-get install openjdk-7-jdk
然后运行java -version 查看是否安装成功
下载spark:
最新版本为spark-2.0.2-bin-hadoop2.7.tgz
然后解压 tar -xvf spark-2.0.2-bin-hadoop2.7.tgz
移动到/opt目录 mv spark-2.0.2-bin-hadoop2.7/ /opt
设置环境变量
echo "export PATH=/opt/spark-2.0.2-bin-hadoop2.7/bin:$PATH" >> ~/.bashrc
source ~/.bashrc
修改spark配置文件
cd /opt/spark-2.0.2-bin-hadoop2.7/conf/
cp log4j.properties.template log4j.properties
cp spark-evn.sh.template spark-evn.sh
修改spark-evn.sh
sudo vim spark-evn.sh
添加以下几行
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7/
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386
export SPARK_MASTER_IP=192.168.18.130
export SPARK_WORKER_MEMORY=256m
我在虚拟机上测试设置内存为256m,具体路径根据实际情况修改
对应python 将python目录下pyspark目录和文件拷贝到 site-packages下
copy file /Path_spark/python/pyspark to /your_python_Lib_path/site-packages
注意:
在~/.bashrc中设置的系统环境只能在terminal shell下运行spark程序才有效,因为.bashrc is only read for interactive shells.
如果要在当前用户整个系统中都有效(包括pycharm等等IDE),需要把环境变量设置在/etc/environment中,例如:
export SPARK_HOME=/opt/spark
PATH="$SPARK_HOME/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games"
分享到:
相关推荐
在Ubuntu操作系统中安装Apache Spark的过程涉及到一系列详细的步骤,需要按照既定的顺序进行操作。下面是根据给定文件内容整理出来的知识点: 首先,需要了解Apache Spark是一个快速的、开源的分布式计算系统,它...
spark-3.5.0-bin-hadoop3.tgz 是Apache Spark的一个特定版本,针对Hadoop 3.x版本进行了优化和构建。Apache Spark是一个强大的分布式计算系统,用于大数据处理和分析。它提供了高效的数据处理能力,支持多种编程语言...
### Spark2.0安装教程与Spark1.3共存配置详解 #### 一、引言 随着大数据技术的发展,Apache Spark 已成为处理大规模数据集的重要工具之一。然而,在实际应用过程中,不同的项目可能需要使用不同版本的 Spark 来...
在 CentOS 6.2(64 位)下安装 Spark 0.8.0 时,需要使用到这些指令来搭建环境。 Ubuntu Spark 中文乱码解决方法是通过创建 fallback 文件夹并链接中文字体来解决中文乱码问题的。同时,了解 Linux 指令的使用也是...
在Ubuntu 16.04上搭建JDK、Hadoop和Spark环境的过程涉及到多个步骤,包括添加软件源、安装软件、配置环境变量、修改配置文件以及启动服务。这个过程中需要注意的是,每个组件的版本应该相互兼容,以确保系统的稳定...
ubuntu16.04_spark2.2.1集群搭建------------------------------------------------------------------------------------------------------------------
描述如何在单个Ubuntu机器或服务器搭建docker spark 集群环境
【Spark本地版安装教程(Ubuntu)】 Spark是一个流行的开源大数据处理框架,主要设计用于快速、通用和可扩展的数据处理。本教程将指导你如何在Ubuntu操作系统上安装Spark,该过程涉及VMware虚拟机的安装、Ubuntu...
### Spark的单机和集群安装与配置 #### 一、单机Spark的安装与配置 在开始安装Spark之前,需要确保已经安装了Scala环境。这是因为Spark是基于Scala编写的,并且许多Spark应用都是用Scala语言编写的。 ##### 1. ...
【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...
Spark 安装使用教程 PDF Spark 是一个基于内存的计算引擎,可以快速地处理大量数据。下面是 Spark 安装使用教程 PDF 中的知识点总结: 1. Spark 概述 Spark 是一个开源的计算引擎,可以快速地处理大量数据。Spark...
本教程将详述如何在虚拟机上安装Ubuntu 16.04(Xenial Xerus)并配置Hadoop和Spark平台,这对于学习大数据处理和分布式计算至关重要。 首先,你需要下载必要的软件。对于虚拟机,这里推荐使用VMware,它是一款广泛...
Spark 的安装和使用通常包括以下几个步骤,特别是当它需要与 Hadoop 集成时。 首先,安装 Hadoop 是使用 Spark 的前提,因为 Spark 可以与 Hadoop 分布式文件系统 (HDFS) 配合工作。如果 Hadoop 已经安装,可以跳过...
### Spark安装与开发环境搭建详解 #### 概述 随着大数据技术的发展,Apache Spark作为一款高性能的数据处理框架,被广泛应用于各种数据处理场景之中。本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一...
### Spark与Scala安装教程知识点详解 ...以上步骤详细介绍了如何在Ubuntu环境下安装和配置Spark以及Scala的基本流程,适合初学者入门学习。通过这些步骤,读者可以顺利地搭建起一个简单的Spark与Scala开发环境。
### Spark 下实现 WordCount #### 一、简介 在大数据处理领域,Apache Spark 是一个非常流行的框架,它能够高效地处理大规模数据集。WordCount 是一个经典的示例程序,用于统计文本文件中每个单词出现的次数。本篇...
从操作系统选择、Java环境配置、Scala安装、SSH配置、Hadoop安装到Spark安装,每个步骤都是环环相扣,缺一不可。在实际操作过程中,还应考虑到IDEA等开发工具的配置,从而能够顺利进行Spark应用的开发和测试。
- **安装JDK**:可以通过包管理器如`apt-get`(Ubuntu/Debian)或`yum`(CentOS/RHEL)安装最新版本的JDK。 ```bash sudo apt-get install openjdk-11-jdk ``` - **验证安装**:通过执行`java -version`命令...
通过上述步骤,我们已经完成了 Hadoop 和 Spark 在 Ubuntu 20.04 LTS 上的安装与配置,并且通过简单的示例程序验证了它们的可用性。需要注意的是,根据实际环境的不同,可能还需要进行更进一步的优化和调整。例如,...
Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效的并行计算能力、易用性和灵活性而备受青睐。CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个全面、集成且经过测试...