`
xttifqqk
  • 浏览: 49094 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

大数据环境部署-JDK8、Hadoop2.7.1、Spark 1.6 for Hadoop2.6+、Scala2.11.7

阅读更多

JDK8、Hadoop2.7.1、Spark 1.6 for Hadoop2.6+、Scala2.11.7

 

命令:sudo(普通用户执行root的命令权限);

 

参考:

http://www.linuxdiyf.com/linux/13027.html

http://blog.csdn.net/yeruby/article/details/49805121

 

修改文件夹的所有者

chown [选项]... [所有者][:[组]] 文件...

  必要参数:

 

    -c 显示更改的部分的信息

 

    -f 忽略错误信息

 

    -h 修复符号链接

 

    -R 处理指定目录以及其子目录下的所有文件

 

    -v 显示详细的处理信息

 

    -deference 作用于符号链接的指向,而不是链接文件本身

命令:sudo chown hadoop:hadoop -R -f /usr/local/hadoop/

监控页面:

Spark Jobs http://192.168.1.114:4040/
监控Spark运行情况(运行start-all.sh后) http://192.168.1.114:8080
监控Hadoop http://192.168.1.114:8088/

 

一、JDK8安装

1、解压

1
sudo tar zxvf ./jdk-7u45-linux-x64.tar.gz

2、移动:mv a b

3-A、设置当前用户的环境变量

1
vi ~/.bashrc

加这些内容到末尾

1
2
3
4
5
#JAVA VARIABLES
export JAVA_HOME=/usr/local/jdk1.8.0_65/
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=${JAVA_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

让设置生效

1
source ~/.bashrc

 

3-B、设置系统的环境变量

1
sudo vim /etc/profile

追加内容到末尾:

1
2
3
export JAVA_HOME=/usr/local/jdk1.8.0_65
export PATH = $JAVA_HOME/bin:$PATH
export CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

执行:

1
source /etc/profile

测试:

1
java -version

 

二、安装SSH

2.1. 安装ssh
$sudo apt-get installl openssh-server
然后continue YES

 

2.2. 安装好ssh服务后,那就打开这个服务吧
$sudo /etc/init.d/ssh start

 

2.3. 顺便查看下服务是否正确启动:
$ ps -e | grep ssh

 

2.4. 设置免密码登录,生成私钥和公钥

 

$ ssh-keygen -t rsa -P ""

 

在输入路径那儿笔者直接回车,这样在/home/ming/.ssh里面生成两个文件 id_rsa、id_rsa.pub,前者是私钥,后者是公钥。

 

2.5. 接着将公钥追加到authorized_keys里面,它保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容。

 

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

 

2.6. 登陆ssh
$ssh hadoop@localhost
接着输入yes

 

2.7. 退出
$exit

 

三、Hadoop安装

1、解压

2、移动到/usr/local/hadoop文件夹下;

3、给当前用户添加读写权限

1
sudo chmod 777 ./hadoop/

4、设置环境变量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#HADOOP VARIABLES
#Hadoop2.7.1
export HADOOP_INSTALL=/usr/local/bigdata/hadoop/
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
不同的
#Hadoop2.4
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"

 5、测试Hadoop

在usr/local/bigdata/hadoop/目录下,有时需要在hadoop/下创建input目录

1
bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.1-sources.jar org.apache.hadoop.examples.WordCount input output

 

 

 

四、安装Spark1.6和Scala2.11.7

1、解压:tar -xzf 文件名

2、配置参数:

1
sudo gedit /etc/profile  或~/.bashrc

追加内容:

1
2
3
4
5
6
7
8
9
10
#Setting Scala Scala环境变量
export SCALA_HOME=/usr/local/bigdata/scala-2.11.7
export PATH=${SCALA_HOME}/bin:$PATH
 
#setting Spark Spark环境变量
export SPARK_HOME=/usr/local/bigdata/spark-hadoop/
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
 
#PythonPath 将Spark中的pySpark模块增加的Python环境中
export PYTHONPATH=/usr/local/bigdata/spark-hadoop/python

执行:source ~/.bashrc

 

3、测试Spark

3.1、打开命令终端;

3.2、在spark-hadoop目录下,执行以下命令,打开Scala到Spark的连接窗口 :

1
./bin/spark-shell
启动无错,则打开以下界面:


 

 

3.3、在spark-hadoop目录下,执行以下命令 ,打开Python到Spark的连接窗口

1
./bin/pyspark
启动无错,则打开以下界面:


 

 

3.4、运行SparkPi(不用root权限)

1
run-example org.apache.spark.examples.SparkPi 10

 

3.4、修改spark-env.sh

1
2
3
cd /usr/local/bigdata/spark-hadoop/conf/
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

追加内容:

1
2
3
4
export JAVA_HOME=/usr/local/jdk1.8.0_65
export SCALA_HOME=/usr/local/bigdata/scala-2.11.7
export SPARK_MASTER_IP=192.168.1.114
export SPARK_WORKER_MEMORY=1024m

 

3.5、提交任务到Spark集群

1
spark-submit --master spark://192.168.1.114:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /usr/local/bigdata/spark-hadoop/lib/spark-examples-1.6.0-hadoop2.6.0.jar

 

五、Spark与Hadoop结合使用

1、在Yarn中运行Spark任务,编辑spark-env.sh:

1
2
3
vim /usr/local/bigdata/spark-hadoop/conf/spark-env.sh
#追加如下内容
export HADOOP_CONF_DIR=/usr/local/bigdata/hadoop/etc/hadoop

 

2、分别开启Hadoop集群和Spark集群:

1
2
3
$HDOOP_HOME/sbin/start-dfs.sh
$HDOOP_HOME/sbin/start-yarn.sh
$SPARK_HOME/sbin/start-all.sh

 

  • 大小: 138.4 KB
  • 大小: 50 KB
0
9
分享到:
评论

相关推荐

    aspose-words-15.8.0-jdk1.6

    aspose-words-15.8.0-jdk1.6aspose-words-15.8.0-jdk1.6aspose-words-15.8.0-jdk1.6aspose-words-15.8.0-jdk1.6aspose-words-15.8.0-jdk1.6aspose-words-15.8.0-jdk1.6aspose-words-15.8.0-jdk1.6aspose-words-...

    hadoop2.7.1+zk3.5+hbase2.1+phoenix 安装部署环境打包

    这个打包的环境简化了大数据环境的配置过程,使得开发者和数据工程师可以快速开始他们的项目。然而,实际部署时,还需要考虑集群的高可用性、安全性、性能优化等多个方面,这些都需要根据具体情况进行详细配置和调整...

    spark--bin-hadoop3-without-hive.tgz

    Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效的计算性能、易用性和灵活性而闻名。...要充分利用这个版本,理解Spark的基本概念和操作,以及如何在Hadoop环境中部署和管理Spark是至关重要的。

    大数据常用安装包-jdk8-py39-node16-spark351

    标题中的“大数据常用安装包-jdk8-py39-node16-spark351”表明这个压缩包包含了几个在大数据处理中常见的组件,包括Java Development Kit (JDK) 8,Python 3.9,Node.js 16以及Spark 3.5.1。这些工具都是数据科学和...

    大数据培训Hadoop-jdk241版本

    通过这份"大数据培训Hadoop-jdk241版本",学习者可以深入理解Hadoop的分布式计算模型,掌握JDK 8的关键特性,并学会在实际项目中运用这些知识,处理大规模的数据挑战。在实际操作中,安装和配置JDK 8u241,然后搭建...

    win10下搭建Hadoop环境(jdk+mysql+hadoop+scala+hive+spark) 3.docx

    在Windows 10环境下搭建Hadoop生态系统,包括JDK、MySQL、Hadoop、Scala、Hive和Spark等组件,是一项繁琐但重要的任务,这将为你提供一个基础的大数据处理平台。下面将详细介绍每个组件的安装与配置过程。 **1. JDK...

    logback-cfca-jdk1.6-3.1.0.0.jar

    logback-cfca-jdk1.6-3.1.0.0.jar

    spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)

    本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...

    hadoop2.6.0+spark1.0所需资源

    hadoop-2.6.0.tar.gz + ideaIC-13.1.6.tar.gz + jdk-7u75-linux-i586.tar.gz + scala-2.10.4.tgz + spark-1.0.0-bin-hadoop2.tgz

    spark-3.2.1 安装包 下载 hadoop3.2

    Scala 2.13是Spark的开发语言,因此需要匹配版本的JDK环境。解压后,你可以配置环境变量,如SPARK_HOME,然后通过bin目录下的启动脚本来运行Spark。此外,还需要配置Hadoop的相关路径,如HADOOP_CONF_DIR,以便Spark...

    spark-2.0.2-bin-hadoop2.4.tgz

    这个版本的Spark支持Java Development Kit (JDK) 7,同时要求Scala编程环境为2.11.x版本。 首先,我们需要理解Spark的核心概念。Spark提供了一个分布式计算模型,名为弹性分布式数据集(Resilient Distributed ...

    okhttp3.8源码使用jdk1.6重新编译_okhttp3.8.0-jdk1.6.zip

    1.okhttp3.8源码使用jdk1.6重新编译,已集成了okio,在javaweb项目中使用,未在安卓项目中使用 2.okhttp3.8源码使用jdk1.6重新编译_okhttp3.8.0-jdk1.6.jar

    jdk-1.6-windows-64-01

    2部分: jdk-1.6-windows-64-01 jdk-1.6-windows-64-02

    大数据技术基础-安装-hadoop-过程.docx

    在IT行业中,大数据技术是当前的关键领域之一,而Hadoop作为开源的大数据处理框架,扮演着核心角色。本文将详细讲解如何在虚拟机环境中安装Hadoop的基础步骤,以供学习和实践。 首先,我们需要在虚拟机上搭建环境。...

    okhttp3.8.0-jdk1.6.zip

    《OkHttp3.8.0-JDK1.6:低版本环境下的高效网络通信库》 OkHttp3.8.0-jdk1.6.zip是一个专门为Java Web项目设计的网络通信库,它针对JDK1.6进行了优化和重新编译,确保在较低版本的Java环境中也能稳定运行。OkHttp,...

    大数据技术基础-安装-hadoop-过程.pdf

    在IT行业中,大数据技术是当前的关键领域之一,而Hadoop作为开源的大数据处理框架,扮演着核心角色。本文将详细讲解如何在虚拟机环境中安装Hadoop的基础步骤,涉及虚拟机软件的选择、安装、配置,以及Java环境的设置...

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...

    hadoop-2.7.1.tar.gz+jdk-8u281-linux-x64.rpm.zip

    这个压缩包文件“hadoop-2.7.1.tar.gz+jdk-8u281-linux-x64.rpm.zip”包含了两个主要组件:Hadoop的2.7.1版本和Java Development Kit(JDK)的8u281版本,适用于Linux操作系统。本文将详细讲解如何在Linux环境中搭建...

    大数据技术基础-安装-hadoop-过程 (2).docx

    本篇主要介绍如何在虚拟环境中搭建Hadoop集群,涉及到虚拟机的选择、操作系统的选择、Java的安装以及Hadoop的初步部署。 首先,我们看到使用的是VirtualBox作为虚拟机软件,它是一款功能强大的开源虚拟化解决方案,...

    spark-2.41-hadoop2.6

    为了部署和运行Spark,你需要配置Hadoop环境,确保JDK版本符合要求,并设置相应的环境变量。然后,你可以使用`spark-submit`脚本来提交你的Spark应用程序,或者直接在Spark Shell中编写和运行代码。对于大规模的数据...

Global site tag (gtag.js) - Google Analytics