spark分布式安装 - - ITeye博客

`

windowboy

浏览: 16815 次
性别:
来自: 深圳

最近访客更多访客>>

zhouyijiaren

haigangyuan2011

543089122

anhongyang125

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

spark分布式安装

博客分类：

大数据

阅读更多

1.如果没安装需要安装 scala,因为spark需要

同时在 /etc/profile 增加

export SCALA_HOME=/scal路径/scala-2.11.7

export PATH=$SCALA_HOME/bin:$PATH

执行 source /etc/profile 使配置文件生效

2.下载spark安装包

wget http://mirror.bit.edu.cn/apache/spark/spark-1.5.1/spark-1.5.1-bin-hadoop2.6.tgz

3. 解压安装包

tar -zxvf spark-1.5.1-bin-hadoop2.6.tgz

4.配置spark配置文件

1> 在 conf目录下重命名 spark-env.sh.template为 spark-env.sh并增加如下内容

#JDK安装目录

JAVA_HOME=/usr/java/default

#Scala安装目录

SCALA_HOME=/path/scala-2.11.7

#spark 目录

export SPARK_HOME=/data0/opt/spark-1.5.1-bin-hadoop2.6

PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:

SPARK_MASTER_IP=192.168.1.10 //masterIP

export SPARK_WORKER_MEMORY=2g //工作内存

2> 在conf 目录下重命名 slaves.template 为 slaves 并增加内容

Master

Slave1

Slave2

3>在 /etc/hosts配置

192.168.1.10 Master

192.168.1.11 Slave1

192.168.1.12 Slave2

4> 执行 source /etc/hosts 使配置生效

拷贝配置好的spark 到11，12机器

./sbin/start-all.sh 启动 spark

在WEB页面访问 http://192.168.1.10:8080可以看到配置的 worker

启动客户端

执行 ./bin/spark-shell

分享到：

Java基础之标示符，变量，流程控制 | cassandra + spring操作

2015-11-03 20:06
浏览 683
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop与spark分布式安装: hadoop与spark分布式安装，内容详细，亲自搭建成功。助于新手

Spark分布式集群安装部署 .doc: Spark分布式集群安装部署 Spark 是一种基于内存的分布式计算框架，它提供了高效的数据处理能力和灵活的编程模型。 Spark 集群安装部署是 Spark 的一个重要组成部分，它可以帮助用户快速部署 Spark 集群，并对其...

spark 分布式集群搭建: - **spark-env.sh**: Spark 的环境变量配置文件，可以设置一些特定于系统的环境变量，比如 Java 安装路径等。启动集群的具体步骤如下： 1. 修改上述配置文件。 2. 在计划作为 Master 的节点上运行 `./sbin/start-...

spark完全分布式环境搭建.pdf: "Spark完全分布式环境搭建" 本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境，包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。一、环境变量设置在搭建 Spark...

Spark分布式集群安装包: Spark分布式集群安装包是专为数据处理和分析爱好者设计的一款工具，它允许用户在多台机器上构建一个高效的计算环境，充分利用集群资源进行大规模数据处理。这个安装包特别适合那些已经具备Hadoop和Scala环境的用户，...

hadoop+spark分布式集群搭建及spark程序示例.doc: hadoop+spark分布式集群搭建及spark程序示例，例子程序为用二项逻辑斯蒂回归进行二分类分析和一个简单的求平均的程序，两种不同的运行方式

Spark分布式集群的搭建.pdf: 在进行Spark分布式集群搭建之前，需要进行一系列的前期准备工作。首先要安装Linux操作系统，并在Linux环境下安装Java开发工具包（JDK）。接着需要搭建一个Hadoop集群，因为Spark可以和Hadoop无缝集成，利用Hadoop的...

基于Spark分布式ETL在海量后勤数据的应用.pdf: 《基于Spark分布式ETL在海量后勤数据的应用》这篇论文探讨了在处理大型企业海量后勤大数据时，如何利用Spark的分布式ETL技术提高数据处理效率。传统的基于MapReduce的ETL方法在面对大量频繁更新的数据时，由于频繁的...

Spark安装、分布式程序开发: 第1章安装VMWare Workstation 10；第2章 VMware 10安装CentOS 6；第3章 CentOS 6安装Hadoop；第4章安装部署Spark；第5章Spark上机操作；第6章开发Spark分布式程序

基于小批量梯度下降和Spark分布式方法的局部断层细化对齐.pdf: #资源达人分享计划#

基于ApacheSpark的分布式深度学习库BigDL.zip: BigDL，是 Intel 开源的一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ，用户可以将他们的深度学习应用程序作为标准的 Spark 程序，它可以直接运行在现有的 Spark 或 Hadoop 集群之上。特性：丰富的深度...

Hadoop2.8和Spark2.1完全分布式搭建: - [Ubuntu 14.04 下 Hadoop2.4.1 单机/伪分布式安装配置教程](http://www.linuxidc.com/Linux/2015-02/113487.htm) - [CentOS 6.3 下 Hadoop 伪分布式平台搭建](http://www.linuxidc.com/Linux/2016-11/136789.htm...

Spark分布式内存计算框架视频教程: 5.Spark 分布式缓存 6.业务报表分析 7.应用执行部署 8.Oozie和Hue集成调度Spark 应用第五章、SparkStreaming 模块 1.Streaming流式应用概述 2.Streaming 计算模式 3.SparkStreaming计算思路 4.入门案例 5.Spark...

基于Spark的分布式大数据机器学习算法.pdf: 《基于Spark的分布式大数据机器学习算法》是一份深入探讨如何利用Apache Spark进行大规模数据处理和机器学习的专业参考资料。Spark作为一款高效、通用的并行计算框架，尤其在处理大规模数据时展现出强大的性能，使得...

基于Spark分布式支持向量机的TMS数据纠错方法研究.pdf: 基于Spark分布式支持向量机的TMS数据纠错方法研究，是一篇发表于计算机科学与应用领域的研究文章，旨在解决智能电网通信管理系统（TMS）中由于大量数据录入导致的数据不一致、错误数据输入和数据缺失等问题。...

基于HDFS的spark分布式Scala程序测试: ### 基于HDFS的Spark分布式Scala程序测试 #### 一、背景介绍随着大数据技术的发展，Apache Hadoop和Apache Spark成为了处理大规模数据集的关键工具。本篇文章将重点介绍如何在Hadoop分布式集群和基于Hadoop分布式...

Spark框架下分布式K-means算法优化方法.pdf: 在众多的分布式计算框架中，Apache Spark凭借其出色的性能、易用性和灵活性脱颖而出。本文主要介绍了基于Spark框架下的分布式K-means算法的优化方法。K-means算法的核心思想是根据数据点到聚类中心的距离将数据点...

基于Spark的分布式并行推理算法.pdf: Spark是一种开源的分布式计算系统，它支持大规模数据集的处理，尤其适用于需要进行迭代计算的数据挖掘任务，而分布式并行推理算法则是指能够将推理任务分配到不同的计算节点上并行执行的算法。本文探讨的基于Spark的...

Global site tag (gtag.js) - Google Analytics