Ubuntu下spark安装 - 一个今天胜过两个明天 - ITeye博客

`

strayly

浏览: 97441 次
性别:
来自: 上海

最近访客更多访客>>

士大夫地方

孤狼18

pengcong90

yjlhope

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jyjsjd：请教博主这个ChineseTokenizer()你是怎么写的， ...
使用WVTool进行文本分类
superclay：能不能发个indexwriter　　　indexsearch　 ...
结合ehcache缓存对lucene使用单例模式搜索
strayly：我采用和ehcache缓存结合使用单例模式使用ehcache ...
lucene搜索优化（转）

Ubuntu下spark安装

博客分类：

数据挖掘
spark

阅读更多

先安装jdk:
sudo apt-get update
sudo apt-get install default-jre
sudo apt-get install openjdk-7-jdk
然后运行java -version 查看是否安装成功
下载spark:
最新版本为spark-2.0.2-bin-hadoop2.7.tgz
然后解压 tar -xvf spark-2.0.2-bin-hadoop2.7.tgz
移动到/opt目录 mv spark-2.0.2-bin-hadoop2.7/ /opt
设置环境变量
echo "export PATH=/opt/spark-2.0.2-bin-hadoop2.7/bin:$PATH" >> ~/.bashrc
source ~/.bashrc
修改spark配置文件
cd /opt/spark-2.0.2-bin-hadoop2.7/conf/
cp log4j.properties.template log4j.properties
cp spark-evn.sh.template spark-evn.sh
修改spark-evn.sh
sudo vim spark-evn.sh
添加以下几行
export SPARK_HOME=/opt/spark-2.0.2-bin-hadoop2.7/
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386
export SPARK_MASTER_IP=192.168.18.130
export SPARK_WORKER_MEMORY=256m
我在虚拟机上测试设置内存为256m，具体路径根据实际情况修改
对应python 将python目录下pyspark目录和文件拷贝到 site-packages下
copy file /Path_spark/python/pyspark to /your_python_Lib_path/site-packages
注意:
在~/.bashrc中设置的系统环境只能在terminal shell下运行spark程序才有效，因为.bashrc is only read for interactive shells.
如果要在当前用户整个系统中都有效（包括pycharm等等IDE），需要把环境变量设置在/etc/environment中,例如:
export SPARK_HOME=/opt/spark
PATH="$SPARK_HOME/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games"

分享到：

spark web ui 开启history server | Mysql 配置参数详解以及优化配置(转载)

2016-11-22 10:26
浏览 431
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Ubuntu下安装spark.pdf: 在Ubuntu操作系统中安装Apache Spark的过程涉及到一系列详细的步骤，需要按照既定的顺序进行操作。下面是根据给定文件内容整理出来的知识点：首先，需要了解Apache Spark是一个快速的、开源的分布式计算系统，它...

spark的Ubuntu下的安装包: spark-3.5.0-bin-hadoop3.tgz 是Apache Spark的一个特定版本，针对Hadoop 3.x版本进行了优化和构建。Apache Spark是一个强大的分布式计算系统，用于大数据处理和分析。它提供了高效的数据处理能力，支持多种编程语言...

spark2 安装教程: ### Spark2.0安装教程与Spark1.3共存配置详解 #### 一、引言随着大数据技术的发展，Apache Spark 已成为处理大规模数据集的重要工具之一。然而，在实际应用过程中，不同的项目可能需要使用不同版本的 Spark 来...

ubuntu spark中文乱码解决方法.docx: 在 CentOS 6.2（64 位）下安装 Spark 0.8.0 时，需要使用到这些指令来搭建环境。 Ubuntu Spark 中文乱码解决方法是通过创建 fallback 文件夹并链接中文字体来解决中文乱码问题的。同时，了解 Linux 指令的使用也是...

Ubuntu 16.04下JDK+Hadoop+Spark环境搭建: 在Ubuntu 16.04上搭建JDK、Hadoop和Spark环境的过程涉及到多个步骤，包括添加软件源、安装软件、配置环境变量、修改配置文件以及启动服务。这个过程中需要注意的是，每个组件的版本应该相互兼容，以确保系统的稳定...

ubuntu16.04_spark2.2.1集群搭建: ubuntu16.04_spark2.2.1集群搭建------------------------------------------------------------------------------------------------------------------

docker spark 集群在Ubuntu下的部署: 描述如何在单个Ubuntu机器或服务器搭建docker spark 集群环境

Spark本地版安装教程（Ubuntu）.docx: 【Spark本地版安装教程（Ubuntu）】 Spark是一个流行的开源大数据处理框架，主要设计用于快速、通用和可扩展的数据处理。本教程将指导你如何在Ubuntu操作系统上安装Spark，该过程涉及VMware虚拟机的安装、Ubuntu...

spark的单机和集群安装与配置: ### Spark的单机和集群安装与配置 #### 一、单机Spark的安装与配置在开始安装Spark之前，需要确保已经安装了Scala环境。这是因为Spark是基于Scala编写的，并且许多Spark应用都是用Scala语言编写的。 ##### 1. ...

spark安装文档: 【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务，尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架，它支持批处理、交互式查询、流处理以及机器学习等多种...

Spark安装使用教程PDF: Spark 安装使用教程 PDF Spark 是一个基于内存的计算引擎，可以快速地处理大量数据。下面是 Spark 安装使用教程 PDF 中的知识点总结： 1. Spark 概述 Spark 是一个开源的计算引擎，可以快速地处理大量数据。Spark...

虚拟机16.04安装过以及Hadoop、spark平台配置: 本教程将详述如何在虚拟机上安装Ubuntu 16.04（Xenial Xerus）并配置Hadoop和Spark平台，这对于学习大数据处理和分布式计算至关重要。首先，你需要下载必要的软件。对于虚拟机，这里推荐使用VMware，它是一款广泛...

Spark安装和使用: Spark 的安装和使用通常包括以下几个步骤，特别是当它需要与 Hadoop 集成时。首先，安装 Hadoop 是使用 Spark 的前提，因为 Spark 可以与 Hadoop 分布式文件系统 (HDFS) 配合工作。如果 Hadoop 已经安装，可以跳过...

spark安装: ### Spark安装与开发环境搭建详解 #### 概述随着大数据技术的发展，Apache Spark作为一款高性能的数据处理框架，被广泛应用于各种数据处理场景之中。本文将详细介绍如何在本地环境中搭建Spark开发环境，并通过一...

Spark&Scala安装教程.docx: ### Spark与Scala安装教程知识点详解 ...以上步骤详细介绍了如何在Ubuntu环境下安装和配置Spark以及Scala的基本流程，适合初学者入门学习。通过这些步骤，读者可以顺利地搭建起一个简单的Spark与Scala开发环境。

spark下实现wordcount: ### Spark 下实现 WordCount #### 一、简介在大数据处理领域，Apache Spark 是一个非常流行的框架，它能够高效地处理大规模数据集。WordCount 是一个经典的示例程序，用于统计文本文件中每个单词出现的次数。本篇...

Spark1.2.0单点或伪分布式安装总结.pdf: 从操作系统选择、Java环境配置、Scala安装、SSH配置、Hadoop安装到Spark安装，每个步骤都是环环相扣，缺一不可。在实际操作过程中，还应考虑到IDEA等开发工具的配置，从而能够顺利进行Spark应用的开发和测试。

spark安装配置教程.docx: - **安装JDK**：可以通过包管理器如`apt-get`（Ubuntu/Debian）或`yum`（CentOS/RHEL）安装最新版本的JDK。 ```bash sudo apt-get install openjdk-11-jdk ``` - **验证安装**：通过执行`java -version`命令...

hadoop&spark安装.md: 通过上述步骤，我们已经完成了 Hadoop 和 Spark 在 Ubuntu 20.04 LTS 上的安装与配置，并且通过简单的示例程序验证了它们的可用性。需要注意的是，根据实际环境的不同，可能还需要进行更进一步的优化和调整。例如，...

spark-2.2.1-bin-2.6.0-cdh5.14.2.tar.gz: Spark是Apache软件基金会下的一个开源大数据处理框架，它以其高效的并行计算能力、易用性和灵活性而备受青睐。CDH（Cloudera Distribution Including Apache Hadoop）是Cloudera公司提供的一个全面、集成且经过测试...

Global site tag (gtag.js) - Google Analytics