搭建hadoop集群
hadoop2.7.3 + spark1.6.1 + scala2.11.8 + jdk1.8.0_101
下载hadoop2.7,修改$HADOOP_HOME/etc/hadoop下的hadoop-env.sh文件
export JAVA_HOME=/soft/jdk1.8.0_101
修改core-site.xml文件(这里讲将数据目录data就放在$HADOOP_HOME下了
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.186.128:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/spark/hadoop-2.7.3/data</value> </property> </configuration>
修改hdfs-site.xml文件
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> </configuration>
先格式化
$HADOOP_HOME/bin/hdfs namenode -format
启动namenode和datanode
./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode
关闭iptables
service iptables stop chkconfig --level 35 iptables off
修改hostname
#几个修改方式 hostname 【主机名】 vim /etc/sysconfig/network sysctl kernel.hostname vim /etc/hosts
搭建hadoop yarn
修改yarn-en.sh
JAVA=/soft/jdk1.8.0_101/bin/java
修改yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>vm128</value> </property> </configuration>
启动节点
./yarn-daemon.sh start resourcemanager ./yarn-daemon.sh start nodemanager
搭建spark
下载scala,安装最新版本即可,然后配置scala home
JAVA_HOME=/soft/jdk1.8.0_101 SCALA_HOME=/root/spark/scala-2.11.8 PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin: export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL JAVA_HOME SCALA_HOME
修改$SPARK_HOME/conf下的 spark-env.sh
export SCALA_HOME=/root/spark/scala-2.11.8 export JAVA_HOME=/soft/jdk1.8.0_101 export SPARK_MASTER_IP=192.168.186.128 export SPARK_WORKER_MEMORY=512M export HADOOP_CONF_DIR=/root/spark/hadoop-2.7.3/etc/hadoop
启动节点
$SPARK_HOME/bin/start-master.sh ./start-slave.sh spark://192.168.186.128:7077
jps结果
NameNode和DataNode是hdfs进程
ResourceManager和NodeManager是YARN进程
Master和Worker是spark进程
6368 Master 7666 Jps 6756 Worker 4343 DataNode 5052 NodeManager 4446 NameNode 4798 ResourceManager
运行简单例子
$SPARK_HOME/bin/spark-shell
先上传一个文件到hdfs中
$HADOOP_HOME/bin/./hdfs dfs -mkdir /test ./hdfs dfs -put /root/spark/spark-2.0.0-bin-hadoop2.7/conf/spark-defaults.conf.template /test/xx var textFile = sc.textFile("hdfs://192.168.186.128:9000/test/xx") var line = textFile.filter(line=>line.contains("spark")) #执行count后就可以计算了 line.count() #map,filter,collect函数 sc.parallelize(1 to 100).map(_*2).filter(_>50).filter(_<180).collect
web UI端口
#hadoop界面 http://192.168.186.128:50070/dfshealth.html#tab-datanode #yarn界面 http://192.168.186.128:8088/cluster/apps/RUNNING #spark界面 http://192.168.186.128:8080/ #spark-shell启动后的任务监控界面 http://192.168.186.134:4040/
参考
相关推荐
这些文件对于搭建Spark与Hive交互的环境至关重要。 在实际使用中,首先需要解压缩这些文件,然后配置Spark的`spark-defaults.conf`文件以指向Hive的元数据存储位置(如HDFS或本地文件系统上的metastore_db)。接着...
这个安装包为在Linux环境中搭建Spark集群提供了必要的组件和库。 **1. Spark基础知识** Spark的核心设计是基于分布式内存计算模型,它引入了Resilient Distributed Datasets (RDDs)的概念,这是一种可分区的、只读...
Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用性著称。Spark 2.2.2是该框架的...通过这个压缩包,你可以快速搭建Spark环境,开始探索其在数据科学、机器学习和实时分析等领域的广泛应用。
综上所述,"spark-2.3.0-bin-hadoop2.7版本.zip"是一个包含了完整的Spark 2.3.0发行版,集成了Hadoop2.7的环境,可供开发者在本地或集群环境中快速搭建Spark开发和测试环境。这个版本的Spark不仅在核心功能上有所...
Spark-开发环境搭建.md
《Spark 2.4.0 与 Hadoop 2.7 深度解析》 Apache Spark 是一个用于大规模数据处理的开源计算框架,它以其高效、易用和多...开发者和数据科学家可以通过这个压缩包,快速搭建 Spark 集群,开启他们的大数据探索之旅。
spark-2.4.5-bin-without-hadoop.tgz (关注“吾说”(作者)一起学习大数据.rar) 一站式搭建sparkstreaming环境见该博客https://blog.csdn.net/wrwhahah/article/details/105716359
总的来说,"spark-2.1.1-bin-hadoop2.7.tar.gz"提供了在Hadoop 2.7环境中运行Spark所需要的所有组件和配置,使得用户能够快速地搭建起一个大数据处理平台,进行高效的数据分析和处理工作。无论是数据科学家、开发者...
3. **环境搭建** - **Linux环境**:需要安装Java运行环境,配置SPARK_HOME和PATH环境变量,解压安装包到指定目录,然后可以通过启动master和worker进程来启动Spark集群。 - **Windows环境**:同样需要Java环境,...
Spark-Bench 环境搭建文档 在本文档中,我们将详细介绍如何搭建 Spark-Bench 运行环境。在搭建过程中,我们会遇到一些错误,这些错误将一一解决。 首先,在编译wikixmlj工程时,我们需要使用 Maven 进行编译。在...
Standalone模式是Spark自带的资源管理器,可以快速地在多台机器上搭建Spark集群。而YARN模式则利用了CDH中的资源管理系统,使Spark作业能在更大的Hadoop集群上运行。若要部署在YARN上,需要配置Spark的conf目录中的...
spark2.3.0 without hive 编译版本,用于Hive on Spark 环境搭建 ./dev/make-distribution.sh --name "hadoop277-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided" -...
这个压缩包通常用于大数据开发环境的快速搭建,避免了开发者需要从源代码编译整个Spark和Hadoop的复杂过程,同时也省去了从官方仓库下载可能耗时较长的问题。 在使用这个压缩包时,首先需要将其解压到服务器或本地...
搭建一个Hadoop 2.7和Spark 2.1的集群环境是一项复杂的工作,涉及到多个步骤,包括系统配置、软件安装、集群配置以及服务启动。在这个过程中,我们需要对Linux操作系统有基本的了解,掌握用户管理和文件权限控制,...
总的来说,Spark-1.6.1-bin-hadoop2.6.zip是一个用于搭建Spark环境的基础,尽管缺少示例JAR,但仍然足以启动和运行Spark应用程序。如果你是初学者,建议从官方文档和在线教程开始学习,逐步了解Spark的各种功能和...
kafka_2.11-0.11.0.0.tgz + spark-streaming-kafka-0-8-assembly_2.11-2.4.5.jar 一站式搭建sparkstreaming环境见该博客https://blog.csdn.net/wrwhahah/article/details/105716359
### Spark集群及开发环境搭建(完整版) #### 一、软件及下载 本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作...
Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...
2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--...