master: 192.168.56.102
slave:[192.168.56.106, 192.168.56.107,192.168.56.108]
下载和配置环境变量
master节点
/etc/profile
export JAVA_HOME=/usr/local/java/jdk1.7.0_75 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export HADOOP_HOME=/home/u2/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin export M2_HOME=/home/u2/apache-maven-3.3.1 export PATH=$M2_HOME/bin:$PATH export SCALA_HOME=/usr/local/scala/scala-2.11.6 export PATH=$SCALA_HOME/bin:$PATH export SPARK_HOME=/home/u2/spark-1.3.0-bin-hadoop2.4 export PATH=$SPARK_HOME/bin:$PATH
cd ~/hadoop-2.6.0/
etc/hadoop/core-site.xml
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/home/u2/hadoopdata/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.102:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>4096</value> </property> </configuration>
etc/hadoop/hdfs-site.xml
<configuration> <property> <name>dfs.nameservices</name> <value>hadoop-cluster1</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.56.102:50090</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///home/u2/hadoopdata/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///home/u2/hadoopdata/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
etc/hadoop/yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>192.168.56.102:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>192.168.56.102:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>192.168.56.102:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>192.168.56.102:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>192.168.56.102:8088</value> </property> </configuration>
etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobtracker.http.address</name> <value>192.168.56.102:50030</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>192.168.56.102:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>192.168.56.102:19888</value> </property> </configuration>
etc/hadoop/hadoop-env.sh 增加
export JAVA_HOME=/usr/local/java/jdk1.7.0_75
etc/hadoop/slaves
192.168.56.106 192.168.56.107 192.168.56.108
cd ~/spark-1.3.0-bin-hadoop2.4/
conf/spark-env.sh增加
export SCALA_HOME=/usr/local/scala/scala-2.11.6 export JAVA_HOME=/usr/local/java/jdk1.7.0_75 export SPARK_MASTER_IP=192.168.56.102 export SPARK_WORKER_MEMORY=1000m export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
conf/slaves
192.168.56.102 192.168.56.106 192.168.56.107 192.168.56.108
ssh-keygen -t rsa
ssh-copy-id -i ~/.ssh/id_rsa.pub u2@192.168.56.106
ssh-copy-id -i ~/.ssh/id_rsa.pub u2@192.168.56.107
ssh-copy-id -i ~/.ssh/id_rsa.pub u2@192.168.56.108
cd ~/
scp -r spark-1.3.0-bin-hadoop2.4 u2@192.168.56.106:~/
scp -r hadoop-2.6.0 u2@192.168.56.106:~/
scp -r spark-1.3.0-bin-hadoop2.4 u2@192.168.56.107:~/
scp -r hadoop-2.6.0 u2@192.168.56.107:~/
scp -r spark-1.3.0-bin-hadoop2.4 u2@192.168.56.108:~/
scp -r hadoop-2.6.0 u2@192.168.56.108:~/
3个slave环境变量配好。记得source /etc/profile
cd ~/hadoop-2.6.0/ ./sbin/start-all.sh cd ~/spark-1.3.0-bin-hadoop2.4/ ./sbin/start-all.sh
打开http://192.168.56.102:8088/cluster/nodes
打开http://192.168.56.102:8080/
cd ~/hadoop hdfs dfs -mkdir /input/json/ hdfs dfs -put friends_timeline.json /input/json/friends_timeline.json cd ~/spark-1.3.0-bin-hadoop2.4 ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-cores 1 --queue default examples/jars/spark-examples*.jar 10 ./bin/spark-shell scala>import org.apache.spark.SparkContext._ scala>val sqlContext = new org.apache.spark.sql.SQLContext(sc) scala>val table = sqlContext.jsonFile("hdfs://192.168.56.102:9000/input/json/friends_timeline") scala>table.printSchema()
相关推荐
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+...
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的...
安装Spark时,需要与Hadoop版本兼容,并配置相关环境变量。 Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。通过Hive,用户无需编写Java MapReduce程序,就能对...
基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计(源码下载) 基于Hadoop+Spark的招聘推荐可视化系统是一种利用Hadoop和Spark等大数据处理技术,实现招聘推荐和可视化展示的应用系统。以下是该系统的主要...
在本文档中,我们详细地介绍了Hadoop+Hbase+Spark+Hive的搭建过程,包括环境准备、主机设置、防火墙设置、环境变量设置、Hadoop安装、Hbase安装、Spark安装和Hive安装。本文档旨在指导读者从零开始搭建Hadoop+Hbase+...
hadoop+spark+hive Linux centos大数据集群搭建,简单易懂,从0到1搭建大数据集群
总的来说,搭建Hadoop、HBase、Spark和Hive集群涉及多个步骤,包括安装、配置、启动以及验证。整个过程需要对大数据处理原理有深入理解,并熟悉Linux系统的操作。完成后,这个集群可以处理大量数据,支持实时查询和...
在Windows操作系统中,Eclipse是一款广泛使用的Java集成开发环境(IDE),它对于开发分布式计算框架如Hadoop、Spark以及数据仓库工具Hive来说,是非常有用的。本教程将深入讲解如何在Eclipse中集成这些组件,以创建...
项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计项目源码:基于Hadoop+Spark招聘推荐可视化系统 大数据项目 ...
通过VirtualBox安装多台虚拟机,实现集群环境搭建。 优势:一台电脑即可。 应用场景:测试,学习。...内附百度网盘下载地址,有hadoop+zookeeper+spark+kafka等等·····需要的安装包和配置文件
基于Hadoop+Spark的大数据金融信贷风险控系统源码+项目说明.zip个人经导师指导并认可通过的高分毕业设计项目,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计、期末大作业...
大数据 hadoop spark hbase ambari全套视频教程(购买的付费视频)
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码(高分项目).zip个人经导师指导并认可通过的高分毕业设计项目,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者。也可作为课程设计...
第一章Hadoop大数据开发环境的思维导图
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码(高分项目)本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用...