`
strayly
  • 浏览: 97441 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Ubuntu下spark安装

 
阅读更多
先安装jdk:
sudo apt-get update
sudo apt-get install default-jre
sudo apt-get install openjdk-7-jdk
然后运行java -version 查看是否安装成功
下载spark:
最新版本为spark-2.0.2-bin-hadoop2.7.tgz
然后解压 tar -xvf spark-2.0.2-bin-hadoop2.7.tgz
移动到/opt目录 mv spark-2.0.2-bin-hadoop2.7/ /opt
设置环境变量
echo "export PATH=/opt/spark-2.0.2-bin-hadoop2.7/bin:$PATH" >> ~/.bashrc
source ~/.bashrc
修改spark配置文件
cd /opt/spark-2.0.2-bin-hadoop2.7/conf/
cp log4j.properties.template log4j.properties
cp spark-evn.sh.template spark-evn.sh
修改spark-evn.sh
sudo vim spark-evn.sh
添加以下几行
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7/
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386
export SPARK_MASTER_IP=192.168.18.130
export SPARK_WORKER_MEMORY=256m
我在虚拟机上测试设置内存为256m,具体路径根据实际情况修改
对应python 将python目录下pyspark目录和文件拷贝到 site-packages下
copy file /Path_spark/python/pyspark to /your_python_Lib_path/site-packages
注意:
在~/.bashrc中设置的系统环境只能在terminal shell下运行spark程序才有效,因为.bashrc is only read for interactive shells.
如果要在当前用户整个系统中都有效(包括pycharm等等IDE),需要把环境变量设置在/etc/environment中,例如:
export SPARK_HOME=/opt/spark
PATH="$SPARK_HOME/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games"
分享到:
评论

相关推荐

    Ubuntu下安装spark.pdf

    在Ubuntu操作系统中安装Apache Spark的过程涉及到一系列详细的步骤,需要按照既定的顺序进行操作。下面是根据给定文件内容整理出来的知识点: 首先,需要了解Apache Spark是一个快速的、开源的分布式计算系统,它...

    spark的Ubuntu下的安装包

    spark-3.5.0-bin-hadoop3.tgz 是Apache Spark的一个特定版本,针对Hadoop 3.x版本进行了优化和构建。Apache Spark是一个强大的分布式计算系统,用于大数据处理和分析。它提供了高效的数据处理能力,支持多种编程语言...

    spark2 安装教程

    ### Spark2.0安装教程与Spark1.3共存配置详解 #### 一、引言 随着大数据技术的发展,Apache Spark 已成为处理大规模数据集的重要工具之一。然而,在实际应用过程中,不同的项目可能需要使用不同版本的 Spark 来...

    ubuntu spark中文乱码解决方法.docx

    在 CentOS 6.2(64 位)下安装 Spark 0.8.0 时,需要使用到这些指令来搭建环境。 Ubuntu Spark 中文乱码解决方法是通过创建 fallback 文件夹并链接中文字体来解决中文乱码问题的。同时,了解 Linux 指令的使用也是...

    Ubuntu 16.04下JDK+Hadoop+Spark环境搭建

    在Ubuntu 16.04上搭建JDK、Hadoop和Spark环境的过程涉及到多个步骤,包括添加软件源、安装软件、配置环境变量、修改配置文件以及启动服务。这个过程中需要注意的是,每个组件的版本应该相互兼容,以确保系统的稳定...

    ubuntu16.04_spark2.2.1集群搭建

    ubuntu16.04_spark2.2.1集群搭建------------------------------------------------------------------------------------------------------------------

    docker spark 集群在Ubuntu下的部署

    描述如何在单个Ubuntu机器或服务器搭建docker spark 集群环境

    Spark本地版安装教程(Ubuntu).docx

    【Spark本地版安装教程(Ubuntu)】 Spark是一个流行的开源大数据处理框架,主要设计用于快速、通用和可扩展的数据处理。本教程将指导你如何在Ubuntu操作系统上安装Spark,该过程涉及VMware虚拟机的安装、Ubuntu...

    spark的单机和集群安装与配置

    ### Spark的单机和集群安装与配置 #### 一、单机Spark的安装与配置 在开始安装Spark之前,需要确保已经安装了Scala环境。这是因为Spark是基于Scala编写的,并且许多Spark应用都是用Scala语言编写的。 ##### 1. ...

    spark安装文档

    【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...

    Spark安装使用教程PDF

    Spark 安装使用教程 PDF Spark 是一个基于内存的计算引擎,可以快速地处理大量数据。下面是 Spark 安装使用教程 PDF 中的知识点总结: 1. Spark 概述 Spark 是一个开源的计算引擎,可以快速地处理大量数据。Spark...

    虚拟机16.04安装过以及Hadoop、spark平台配置

    本教程将详述如何在虚拟机上安装Ubuntu 16.04(Xenial Xerus)并配置Hadoop和Spark平台,这对于学习大数据处理和分布式计算至关重要。 首先,你需要下载必要的软件。对于虚拟机,这里推荐使用VMware,它是一款广泛...

    Spark安装和使用

    Spark 的安装和使用通常包括以下几个步骤,特别是当它需要与 Hadoop 集成时。 首先,安装 Hadoop 是使用 Spark 的前提,因为 Spark 可以与 Hadoop 分布式文件系统 (HDFS) 配合工作。如果 Hadoop 已经安装,可以跳过...

    spark安装

    ### Spark安装与开发环境搭建详解 #### 概述 随着大数据技术的发展,Apache Spark作为一款高性能的数据处理框架,被广泛应用于各种数据处理场景之中。本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一...

    Spark&Scala安装教程.docx

    ### Spark与Scala安装教程知识点详解 ...以上步骤详细介绍了如何在Ubuntu环境下安装和配置Spark以及Scala的基本流程,适合初学者入门学习。通过这些步骤,读者可以顺利地搭建起一个简单的Spark与Scala开发环境。

    spark下实现wordcount

    ### Spark 下实现 WordCount #### 一、简介 在大数据处理领域,Apache Spark 是一个非常流行的框架,它能够高效地处理大规模数据集。WordCount 是一个经典的示例程序,用于统计文本文件中每个单词出现的次数。本篇...

    Spark1.2.0单点或伪分布式安装总结.pdf

    从操作系统选择、Java环境配置、Scala安装、SSH配置、Hadoop安装到Spark安装,每个步骤都是环环相扣,缺一不可。在实际操作过程中,还应考虑到IDEA等开发工具的配置,从而能够顺利进行Spark应用的开发和测试。

    spark安装配置教程.docx

    - **安装JDK**:可以通过包管理器如`apt-get`(Ubuntu/Debian)或`yum`(CentOS/RHEL)安装最新版本的JDK。 ```bash sudo apt-get install openjdk-11-jdk ``` - **验证安装**:通过执行`java -version`命令...

    hadoop&spark安装.md

    通过上述步骤,我们已经完成了 Hadoop 和 Spark 在 Ubuntu 20.04 LTS 上的安装与配置,并且通过简单的示例程序验证了它们的可用性。需要注意的是,根据实际环境的不同,可能还需要进行更进一步的优化和调整。例如,...

    spark-2.2.1-bin-2.6.0-cdh5.14.2.tar.gz

    Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效的并行计算能力、易用性和灵活性而备受青睐。CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个全面、集成且经过测试...

Global site tag (gtag.js) - Google Analytics