1,要求你已经成功把Hadoop集群安装完毕,并经过测试,如果不知道如何编译安装Hadoop请参考散仙的这篇文章
http://qindongliang.iteye.com/blog/2222145
2,安装Scala2.10.x版本,spark1.4.0最新版本的兼容2.10.x的scala,建议还是安装scala2.10.x的,虽然scala最新的版本是2.11.x了
安装方法:
(1) wget http://downloads.typesafe.com/scala/2.10.4/scala2.10.5.tgz_ga=1.83310549.215870088.1434449855
(2)tar -zxvf scala.xxx.tgz
(3)配置环境变量如下:
export SCALA_HOME=/ROOT/server/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
(4)测试scala
[webmaster@any-hadoop-0 ~]$ scala -version
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
[webmaster@any-hadoop-0 ~]$ scala
Welcome to Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79).
Type in expressions to have them evaluated.
Type :help for more information.
scala> print("scala install success")
scala install success
scala>
3,安装spark
(1)wget 下载hadoop对应版本的二进制包,散仙这里是hadoop2.6.0
wget http://archive.apache.org/dist/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz
(2)解压到某个目录下,并命名为spark,下载下来的包名有点繁琐
(3)配置Spark的环境变量:
export SPARK_HOME=/ROOT/server/spark
export PATH=$PATH:$SPARK_HOME/bin
(4)进入spark/conf目录下,执行命令
mv spark-env.sh..template spark-env.sh
mv slaves.template slaves
(5)配置spark-env.sh,使用vi spark-env.sh编译此文件,在文末添加如下几行:
export SCALA_HOME=/ROOT/server/scala-2.10.4
export JAVA_HOME=$JAVA_HOME
export HADOOP_HOME=/ROOT/server/hadoop
export HADOOP_CONF_DIR=/ROOT/server/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_DRIVER_MEMORY=1G
(6)配置slaves
master
slave1
slave2
(7)执行scp命令,将环境变量,以及scala,spark的目录包,发送到各个节点上
(8)进入spark的根目录(因为hadoop的启动命令,跟这名字一样,所以,为避免冲突),执行sbin/start-all.sh启动spark集群;
(9)访问http://ip:8080查看spark的web界面
4,spark运行例子:
(1)本地模式运行
bin/run-example SparkPi 10 --master local[2]
(2)Spark Standalone集群运行:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 lib/spark-examples-1.4.0-hadoop2.6.0.jar 100
运行完,在spark的8080界面可以查看任务:
(3)在spark on yarn上 以yarn-cluster模式运行:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster lib/spark-examples*.jar 10
(5)以yarn-client模式运行:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client lib/spark-examples*.jar 10
运行完,在hadoop的8088界面监控如下:
yarn-cluster与yarn-client的区别?
前者是后台挂起的方式运行,终端关了,对我这个任务不影响
后者是交互式的方式运行,终端关了,这个任务就被kill了
最后欢迎大家扫码关注微信公众号:我是攻城师(woshigcs),我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!
- 大小: 406.6 KB
- 大小: 83.6 KB
- 大小: 366.5 KB
- 大小: 141.1 KB
- 大小: 546 KB
分享到:
相关推荐
hadoop-2.6.0.tar.gz + ideaIC-13.1.6.tar.gz + jdk-7u75-linux-i586.tar.gz + scala-2.10.4.tgz + spark-1.0.0-bin-hadoop2.tgz
Hadoop 2.6.0+Hbase1.12+mahout0.9 集群搭建,自己写的,可以根据实际情况搭建伪分布式或者完全分布式。
在安装Hadoop时,通常需要配置集群环境,包括主节点和从节点,并确保所有节点之间的网络通信畅通。 Spark是大数据处理的另一个关键组件,它支持批处理、交互式查询(通过Spark SQL)、实时流处理(通过Spark ...
- **Spark安装**: - 安装Java Development Kit (JDK)作为基础,因为Spark需要JVM运行。 - 下载Spark并解压,配置`SPARK_HOME`和`PATH`。 - 配置`spark-env.sh`,指定Hadoop相关路径和YARN资源管理器。 - **...
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+...
spark-assembly-1.6.1-hadoop2.6.0.jar,欢迎下载,,,,,,,,,,,,,,,,,,,,
它包含了如SSH、HDFS命令行工具等,使得开发者和管理员能在Windows上管理Hadoop集群。 其中,hadoop.dll是Hadoop在Windows平台上的一个重要动态链接库(DLL)文件,它提供了Hadoop运行时所需的函数和资源。这个文件...
hadoop+spark+hive Linux centos大数据集群搭建,简单易懂,从0到1搭建大数据集群
在本文档中,我们详细地介绍了Hadoop+Hbase+Spark+Hive的搭建过程,包括环境准备、主机设置、防火墙设置、环境变量设置、Hadoop安装、Hbase安装、Spark安装和Hive安装。本文档旨在指导读者从零开始搭建Hadoop+Hbase+...
综上所述,徐老师的大数据培训涵盖了目前最主流的大数据处理技术和工具,从基础的Hadoop到高级的Spark和Scala,再到集群管理和监控的Ambari,形成了一套完整的培训体系。这不仅能够帮助学员建立起扎实的大数据理论...
基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark ...
《Spark编程核心组件:spark-assembly-1.5.2-hadoop2.6.0.jar详解》 在大数据处理领域,Spark以其高效、易用和灵活性脱颖而出,成为了许多开发者的首选框架。Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark中的一个...
Hadoop Spark R SparkR 大数据集群 安装文档。全是原生组件,部署在Centos系统上
hadoop2.2集群搭建遇到的各种问题。
本文主要是学习大数据的常用工具框架,搭建Hadoop3.4.0 + Spark3.5.1 on Yarn的集群环境,本集群用到4台虚拟机(物理机也可以),1主3从。 实验环境:VMWare WorkStation + CentOS8.5 + JDK17 + Hadoop3.4.0 + Spark...
Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建 Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建是大数据处理和存储的重要组件,本文档将指导用户从零开始搭建一个完整的Hadoop2.2+Zookeeper3.4.5+HBase0.96集群...
Hadoop2.9.2+Spark2.4.8安装手册.txt
这个特定的版本(1.5.2)与Hadoop 2.6.0兼容,这意味着它可以无缝地运行在支持Hadoop 2.6.0的集群上。在大数据处理领域,Spark因其高效、易用和适用于实时计算的特性而备受青睐。 Spark的核心设计思想是提供一种...
看这一篇就够啦,给出一个完全分布式hadoop+spark集群搭建完整文档,从环境准备(包括机器名,ip映射步骤,ssh免密,Java等)开始,包括zookeeper,hadoop,hive,spark,eclipse/idea安装全过程,3-4节点,集群部署...