`

spark集群搭建

阅读更多

 

安装scala

下载scala-2.11.4

解压

配置环境变量

SCALA_HOME=/home/hadoop-cdh/app/test/scala-2.11.4
PATH=$PATH:$SCALA_HOME/bin

 

安装spark

下载

spark-1.2.0-bin-hadoop2.3 (需要和hadoop版本对应,不然会有protocal的错)

解压

配置spark-env.sh

export JAVA_HOME=/home/hadoop-cdh/java/jdk1.7.0_06
export SCALA_HOME=/home/hadoop-cdh/app/test/scala-2.11.4
export HADOOP_HOME=/home/hadoop-cdh/app/hadoop-2.3.0-cdh5.1.0

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_JAR=/home/hadoop-cdh/app/test/spark-1.2.0-bin-hadoop2.3/lib/spark-assembly-1.2.0-hadoop2.3.0.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop-cdh/app/hadoop-2.3.0-cdh5.1.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar

 配置spark-default.conf(先要mkdir spark.eventLog.dir)

spark.eventLog.dir=/home/hadoop-cdh/app/test/spark-1.2.0-bin-hadoop2.3/applicationHistory
spark.eventLog.enabled=true

spark.yarn.historyServer.address=http://HISTORY_HOST:HISTORY_PORT

 配置slaves

host143
host144

 启动

start-all.sh

会出现Master Worker进行

运行spark-shell

 bin/spark-shell --executor-memory 1g --driver-memory 1g --master spark://host143:7077

 

测试语句:(需要把word.txt上传到hdfs上,word.txt里是字母,空格隔开)

 sc 

val file = sc.textFile("hdfs://xxx/user/dirk.zhang/data/word.txt")  

val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_) 

 

 

参考

http://blog.csdn.net/zwx19921215/article/details/41821147

http://www.tuicool.com/articles/BfUR73

 

 

分享到:
评论

相关推荐

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    "基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...

    Spark集群搭建与测试【完整版】

    Spark集群搭建的完整过程,可参考搭建一个属于自己的Spark集群。非常适合新手,学习spark平台的搭建。

    Hadoop及Spark集群搭建文档

    在IT领域,大数据处理是不可或缺的一部分,而Hadoop和...总之,通过学习和实践这个Hadoop及Spark集群搭建文档,你可以掌握大数据处理的基础知识,提升在分布式计算领域的技能,为大数据分析和应用开发打下坚实基础。

    Hadoop和spark集群搭建详解

    hadoop与spark集群搭建,了解hadoop分布式、伪分布式等方式集群搭建

    基于CDH的spark集群搭建

    基于CDH的spark集群搭建,包括了httpd等服务的部署过程

    基于Linux平台下的Hadoop和Spark集群搭建研究.docx

    ### 基于Linux平台下的Hadoop和Spark集群搭建研究 #### 1. Hadoop和Spark的简介 ##### 1.1 Hadoop的特点及MapReduce的运行过程 **Hadoop的特点** Hadoop是一个开放源代码的分布式计算平台,主要用于处理大规模...

    Spark集群环境搭建

    本文将介绍Spark集群环境搭建的详细步骤,包括集群规划、前置条件、Spark集群搭建、启动集群、验证集群高可用等。 一、集群规划 在搭建Spark集群之前,需要进行集群规划,确定集群的架构和配置。在本例中,我们将...

    实时计算框架:Spark集群搭建与入门案例.docx

    2. **Cluster Manager**:管理整个Spark集群的资源,可以是Spark原生的、Apache Mesos或Hadoop YARN。它根据应用需求分配和释放Worker Node上的资源。 3. **Executor**:在Worker Node上运行的进程,每个Executor...

    Sparkonyarn集群搭建详细过程.pdf

    Spark on YARN 集群搭建详细过程 _title_:Spark on YARN 集群搭建详细过程 _description_:本文详细介绍了 Spark on YARN 集群搭建的过程,包括配置主机 hosts 文件、免密码登录、安装 Java、安装 Scala 等步骤。...

    Hadoop与Spark集群搭建及中文字频统计与Titanic数据分类实战

    内容概要:本文档详细记录了在CentOS虚拟机上搭建Hadoop与Spark集群的全过程。首先介绍了安装CentOS虚拟机、配置网络的方法,接着详细说明了安装并配置Java环境、Hadoop集群的步骤。此外,还涉及了使用Hadoop进行...

    hadoop2.2+spark集群搭建手记之hadoop集群遇到的各种问题

    hadoop2.2集群搭建遇到的各种问题。

    hadoop-Apache2.7.3+Spark2.0集群搭建

    Hadoop-Apache2.7.3和...以上是根据文档提供的信息梳理出的Hadoop和Spark集群搭建的知识点。注意,由于文档中存在部分OCR识别错误,可能会影响对知识点的完整理解,具体操作时需要结合实际情况和官方文档进行校正。

    spark 分布式集群搭建

    ### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合...

    spark集群搭建超详细

    针对新手,因本人也是新手,耗费10天完成,详细到每一个步骤

    分布式hadoop与spark集群搭建[汇编].pdf

    配置完成后,安装Java环境是搭建Hadoop和Spark集群的必要条件。这里以安装JDK 8为例,解压安装包(`tar -zxvf jdk-8u25-linux-i586.tar.gz`),并将Java路径添加到环境变量中(`JAVA_HOME`, `JRE_HOME`, `CLASS_PATH`)...

    Spark集群及开发环境搭建(完整版)

    #### 六、机器集群搭建 - 复制主节点(master)创建从节点(slaves)。 - 配置各节点的静态IP地址。 - 设置主机名以区分不同节点。 - 配置SSH免密登录以方便远程操作。 - 进行Hadoop集群测试以验证集群配置的正确性...

    Spark环境搭建-Windows

    Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...

    Spark集群搭建与测试讲解.docx

    。。。

Global site tag (gtag.js) - Google Analytics