安装scala
下载scala-2.11.4
解压
配置环境变量
SCALA_HOME=/home/hadoop-cdh/app/test/scala-2.11.4 PATH=$PATH:$SCALA_HOME/bin
安装spark
下载
spark-1.2.0-bin-hadoop2.3 (需要和hadoop版本对应,不然会有protocal的错)
解压
配置spark-env.sh
export JAVA_HOME=/home/hadoop-cdh/java/jdk1.7.0_06 export SCALA_HOME=/home/hadoop-cdh/app/test/scala-2.11.4 export HADOOP_HOME=/home/hadoop-cdh/app/hadoop-2.3.0-cdh5.1.0 export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_JAR=/home/hadoop-cdh/app/test/spark-1.2.0-bin-hadoop2.3/lib/spark-assembly-1.2.0-hadoop2.3.0.jar export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop-cdh/app/hadoop-2.3.0-cdh5.1.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
配置spark-default.conf(先要mkdir spark.eventLog.dir)
spark.eventLog.dir=/home/hadoop-cdh/app/test/spark-1.2.0-bin-hadoop2.3/applicationHistory spark.eventLog.enabled=true spark.yarn.historyServer.address=http://HISTORY_HOST:HISTORY_PORT
配置slaves
host143 host144
启动
start-all.sh
会出现Master Worker进行
运行spark-shell
bin/spark-shell --executor-memory 1g --driver-memory 1g --master spark://host143:7077
测试语句:(需要把word.txt上传到hdfs上,word.txt里是字母,空格隔开)
sc val file = sc.textFile("hdfs://xxx/user/dirk.zhang/data/word.txt") val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
参考
http://blog.csdn.net/zwx19921215/article/details/41821147
http://www.tuicool.com/articles/BfUR73
相关推荐
"基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...
Spark集群搭建的完整过程,可参考搭建一个属于自己的Spark集群。非常适合新手,学习spark平台的搭建。
在IT领域,大数据处理是不可或缺的一部分,而Hadoop和...总之,通过学习和实践这个Hadoop及Spark集群搭建文档,你可以掌握大数据处理的基础知识,提升在分布式计算领域的技能,为大数据分析和应用开发打下坚实基础。
hadoop与spark集群搭建,了解hadoop分布式、伪分布式等方式集群搭建
基于CDH的spark集群搭建,包括了httpd等服务的部署过程
### 基于Linux平台下的Hadoop和Spark集群搭建研究 #### 1. Hadoop和Spark的简介 ##### 1.1 Hadoop的特点及MapReduce的运行过程 **Hadoop的特点** Hadoop是一个开放源代码的分布式计算平台,主要用于处理大规模...
本文将介绍Spark集群环境搭建的详细步骤,包括集群规划、前置条件、Spark集群搭建、启动集群、验证集群高可用等。 一、集群规划 在搭建Spark集群之前,需要进行集群规划,确定集群的架构和配置。在本例中,我们将...
2. **Cluster Manager**:管理整个Spark集群的资源,可以是Spark原生的、Apache Mesos或Hadoop YARN。它根据应用需求分配和释放Worker Node上的资源。 3. **Executor**:在Worker Node上运行的进程,每个Executor...
Spark on YARN 集群搭建详细过程 _title_:Spark on YARN 集群搭建详细过程 _description_:本文详细介绍了 Spark on YARN 集群搭建的过程,包括配置主机 hosts 文件、免密码登录、安装 Java、安装 Scala 等步骤。...
hadoop2.2集群搭建遇到的各种问题。
Hadoop-Apache2.7.3和...以上是根据文档提供的信息梳理出的Hadoop和Spark集群搭建的知识点。注意,由于文档中存在部分OCR识别错误,可能会影响对知识点的完整理解,具体操作时需要结合实际情况和官方文档进行校正。
### Spark Standalone 分布式集群搭建详解 #### Spark Standalone 运行模式概述 Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合...
针对新手,因本人也是新手,耗费10天完成,详细到每一个步骤
配置完成后,安装Java环境是搭建Hadoop和Spark集群的必要条件。这里以安装JDK 8为例,解压安装包(`tar -zxvf jdk-8u25-linux-i586.tar.gz`),并将Java路径添加到环境变量中(`JAVA_HOME`, `JRE_HOME`, `CLASS_PATH`)...
#### 六、机器集群搭建 - 复制主节点(master)创建从节点(slaves)。 - 配置各节点的静态IP地址。 - 设置主机名以区分不同节点。 - 配置SSH免密登录以方便远程操作。 - 进行Hadoop集群测试以验证集群配置的正确性...
Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...
。。。
。。。