cento7下,spark集群环境快速安装 -

小施_重名后缀

浏览: 1322 次

最近访客更多访客>>

yfw123

humingminghz

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

cento7下,spark集群环境快速安装

博客分类：

spark

spark centos7 Hadoop

最近准备倒腾spark.网上的搭建过程感觉都相当的长,自己在用virtual box搞了3台centos 7虚拟机,搭建了一次,发现可以不用那么复杂.就把自己的过程写下来.

过程就分几步:

系统准备工作.
ssh免密码登录.
环境变量
hadoop配置
spark配置
测试

1.系统准备工作

首先是操作系统安装

iso镜像,建议选择DVD,不要用minimal.不然后面少各种命令.也是个麻烦.

新建虚拟机的时候,网络类型可以选仅主机(host only)网络,这样没接网线的时候也可以用.挂载iso镜像,一路下一步.选择Basic web server就了事了. ip最好还是改成静态.要是dhcp, 虚拟分配到的ip不是固定的.ip也可以在安装完毕以后再设置也可以. 用nmtui命令配置网络,也是图形界面了.难度不大.

以下操作都在root用户下面执行,并且每台上面都要运行

安装java,这里安装了jdk8

mkdir /media/cdrom/
mount /dev/cdrom /media/cdrom/

yum --disablerepo=\* --enablerepo=c7-media install java-1.8.0-openjdk-devel

安装好以后测试一下

java -version
javac -version

修改/etc/hosts

写入

192.168.56.11 master
192.168.56.12 slave1
192.168.56.13 slave2

ip请根据实际情况填写

修改 /etc/hostname

按照机器所处的角色.每台分别写入master, slave1,slave2

为了不必要的麻烦,把防火墙设置为受信区域.省得麻烦.

firewall-cmd --set-default-zone=trusted

systemctl restart firewalld

2.ssh免密码登录.

创建hadoop运行用户

adduser -U hadoop
passwd hadoop #设置密码

#测试一下,顺便生成密钥,设置免密码登录
su hadoop
ssh-keygen #一路回车
ssh-copy-id hadoop@master
ssh-copy-id hadoop@slave1
ssh-copy-id hadoop@slave2
exit

重启虚拟机.

首先把hadoop和spark的压缩包上传到master的/home/hadoop目录下面.

我的压缩包分别是 hadoop-2.6.4.tar.gz spark-1.6.1-bin-hadoop2.6.tgz

3.安装包和环境变量准备

以下操作都在master上以hadoop用户执行

直接解压

tar -xf ./hadoop-2.6.4.tar.gz
tar -xf ./spark-1.6.1-bin-hadoop2.6.tgz

修改 ~/.bashrc

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

export HADOOP_HOME=/home/hadoop/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin


export SPARK_HOME=/home/hadoop/spark-1.6.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

#如果你的java,hadoop,spark版本不同,请修改相应的路径

加载刚刚的设置

source ~/.bashrc

4.hadoop安装.

创建临时文件目录

cd ~/hadoop-2.6.4
mkdir tmp

修改etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop-2.6.4/tmp</value>
    </property>
</configuration>

修改etc/hadoop/hdfs-site.xml, 3份复制

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

创建文件etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改etc/hadoop/yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>

</configuration>

修改 etc/hadoop/slaves

master
slave1
slave2

把配置好的hadoop也复制到slave1,slave2

scp -r ~/hadoop-2.6.4     slave1:/home/hadoop/
scp -r ~/hadoop-2.6.4     slave2:/home/hadoop/

hdfs准备

hdfs namenode -format
start-dfs.sh

如果启动过程中,出现ssh登录的指纹信息,直接输入yes确认.

启动完毕以后可以用jps,在每台机器上看一下.

master上有,

SecondaryNameNode

DataNode

NameNode

而slave上只有datanode

运行

start-yarn.sh

再用jps看看. master上会多出ResourceManager 和 NodeManager, 而slave只多出来NodeManager

5.spark安装

如果要用scala,需要安装,我用python,暂时就不安装了

cd ~/spark-1.6.1-bin-hadoop2.6/
cp conf/spark-env.sh.template conf/spark-env.sh

修改conf/spark-env.sh,加入一下内容, ip填入master的实际ip

export SPARK_MASTER_IP=192.168.56.11
export SPARK_WORKER_MEMORY=512m
#内存可以看情况
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.6.4/etc/hadoop

复制slaves文件模板

cp conf/slaves.template conf/slaves

conf/slaves加入一下内容

master
slave1
slave2

配置完毕,复制到slave机器

scp -r ~/spark-1.6.1-bin-hadoop2.6    hadoop@slave1:/home/hadoop
scp -r ~/spark-1.6.1-bin-hadoop2.6    hadoop@slave2:/home/hadoop

启动

start-all.sh

6.测试

hdfs dfs -copyFromLocal ~/spark-1.6.1-bin-hadoop2.6/README.md /

pyspark
print sc.textFile('/README.md').cache().count()

分享到：

java接口方法调用源码分析

2016-07-09 15:39
浏览 600
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

"三菱PLC与触摸屏联合开发气压传动焊条包装线技术详解",No.945 三菱PLC和触摸屏基于气压传动的焊条包装线的研发 ,核心关键词：三菱PLC; 触摸屏; 气压传动; 焊条包装线; 研: "三菱PLC与触摸屏联合开发气压传动焊条包装线技术详解",No.945 三菱PLC和触摸屏基于气压传动的焊条包装线的研发 ,核心关键词：三菱PLC; 触摸屏; 气压传动; 焊条包装线; 研发; No.945,"三菱PLC与触摸屏在气压传动焊条包装线研发项目No.945中的应用"

vb图书馆管理系统(源代码+论文).rar: 1、资源项目源码均已通过严格测试验证，保证能够正常运行； 2、项目问题、技术讨论，可以给博主私信或留言，博主看到后会第一时间与您进行沟通； 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用，尤其对于人工智能、计算机科学与技术等相关专业，更为适合； 4、下载使用后，可先查看README.md文件（如有），本项目仅用作交流学习参考，请切勿用于商业用途。

[matlab系统程序]MATLAB危险区域预警系统.zip: 本项目是自己做的设计，有GUI界面，完美运行，适合小白及有能力的同学进阶学习，大家可以下载使用，整体有非常高的借鉴价值，大家一起交流学习。该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用，亦可作为期末课程设计、课程大作业、毕业设计等。项目整体具有较高的学习借鉴价值！基础能力强的可以在此基础上修改调整，以实现不同的功能。

[matlab系统程序]MATLAB图像去雾.zip: 本项目是自己做的设计，有GUI界面，完美运行，适合小白及有能力的同学进阶学习，大家可以下载使用，整体有非常高的借鉴价值，大家一起交流学习。该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用，亦可作为期末课程设计、课程大作业、毕业设计等。项目整体具有较高的学习借鉴价值！基础能力强的可以在此基础上修改调整，以实现不同的功能。

基于文献知识与知识图谱补全方法用于COVID-19药物再利用的创新算法: 内容概要：文章介绍了针对COVID-19的药物再利用的创新方法，这种方法融合了基于文献的知识（LitCovid和CORD-19数据集）及先进的知识图谱补全技术。具体采用了基于神经网络的TransE、RotatE等多种算法预测药物再利用的潜力，并通过开放和封闭的发现模式为预测结果提供合理的机制解释，包括发现模式、准确性分类及定性评估等手段，增强了方法的实用性。研究表明，TransE表现最优，并成功预测并验证了一系列药物作为COVID-19的治疗候选人选。此外，方法不仅适用于COVID-19，还具备应用于其他疾病药物再利用及其他临床问题解决的潜力。此研究为快速高效地推进药物再利用提供了一个新的计算框架。适合人群：生物医学科研人员，从事药品再利用、人工智能药物筛选的专业研究人员，对生物信息数据分析和处理感兴趣的学者或技术人员。使用场景及目标：① 利用计算模型预测药物能否被重新应用于新的适应症，尤其是在面对突发公共卫生事件时加快新药物的研发进程。② 对现有药物进行再评价，以发现更广泛、安全、有效的治疗用途，为临床治疗提供依据和理论指导。③ 探讨通过自动化手段发掘药物作用机理的技术路径。其他说明：作者团队来自多个国家和地区，研究获得了多项国家级基金支持，论文详尽描述了实验细节，并附上了全部代码和数据资源供后续拓展和重复研究使用。

"基于三菱PLC与组态王技术的智能交通灯车辆监测系统：No.808的实践与应用",No.808 基于三菱PLC和组态王的智能交通灯车辆监测 ,关键词: 基于三菱PLC; 组态王; 智能交通: "基于三菱PLC与组态王技术的智能交通灯车辆监测系统：No.808的实践与应用",No.808 基于三菱PLC和组态王的智能交通灯车辆监测 ,关键词: 基于三菱PLC; 组态王; 智能交通灯; 车辆监测; No.808,"三菱PLC与组态王协同的智能交通灯车辆监测系统No.808"

minecraft1.16.1生存基地搭配了1.16.1的BSL着色器 BSL光影:https://cdn.modrinth.com/data/Q1vvjJYV/versions/oGcsNfpD/: 在湖上建造的生存基地，希望大家喜欢

基于西门子S7-1200 PLC与Wincc组态技术的智能路口交通指挥系统解决方案 ,No.698 西门子S7-1200 和Wincc组态基于PLC的路口交通指挥系统 ,No.698; 西门子S7-1: 基于西门子S7-1200 PLC与Wincc组态技术的智能路口交通指挥系统解决方案。,No.698 西门子S7-1200 和Wincc组态基于PLC的路口交通指挥系统 ,No.698; 西门子S7-1200; Wincc组态; PLC; 路口交通指挥系统; 交通控制系统。,基于PLC与Wincc组态的西门子S7-1200交通指挥系统

电子设计大赛+C题+FPGA+省级获奖: 本资源为无线传输信号模拟系统的完整设计报告，基于ZYNQ7020开发平台实现，包含硬件设计、FPGA算法逻辑、软件控制及详细测试方案。系统可生成直达信号、多径信号及合路信号，支持参数动态调节，适用于通信系统仿真、教学实验及科研开发。资源内容设计报告全文：方案论证、理论分析、电路设计、程序流程图、测试结果。附录数据：AM调制频谱、载波有效值测量、多径时延/衰减/初相实测数据。配套资料：系统架构图、DAC模块电路图、FPGA算法逻辑框图（PDF+高清图）。适用场景设计参考 FPGA数字信号处理开发无线信道模拟与通信系统仿真科研项目中的信号生成与测试

毕业设计&课程设计&毕设&课设-java-ssm网络视频播放器: 项目均经过测试，可正常运行！环境说明：开发语言：java JDK版本：jdk1.8 框架：springboot 数据库：mysql 5.7/8 数据库工具：navicat 开发软件：eclipse/idea

sqllite查询数据库的语句: sqllite查询数据库的语句

(源码)基于物联网的Buddy康复激励系统.zip: # 基于物联网的Buddy康复激励系统 ## 项目简介 Buddy是一个旨在支持和激励个人在日常生活中的身体活动，从而促进康复和保持健康的系统。它由两部分组成可穿戴设备和名为“Wrfel”的游戏组件。通过可穿戴设备追踪用户的步数和心率等身体数据，并在显示屏上展示。名为“Motivationsbuddy”的角色会在每次活动时陪伴用户，并通过提醒和小提示激励用户保持活动。此外，用户还可以通过设备与其他人员进行网络联系。每周用户可以通过掷骰子的方式选择新的活动。收集到的可穿戴设备数据也会在骰子游戏的界面上进行展示。 ## 项目的主要特性和功能 1. 穿戴设备的步数和心率监测功能实时追踪用户的步数和心率，并在显示屏上展示数据。 2. 激励功能通过提醒和小提示激励用户保持活动。 3. 网络联系功能用户可以与其他人员进行网络联系，分享活动数据和经验。 4. 掷骰子活动选择功能每周用户可以通过掷骰子的方式选择新的活动，增加活动的多样性和趣味性。

(源码)基于MFC框架的指纹识别系统.zip: # 基于MFC框架的指纹识别系统 ## 项目简介本项目是一个基于MFC（Microsoft Foundation Classes）框架的指纹识别系统，主要用于指纹的采集、预处理、特征提取、特征过滤、特征匹配和入库等操作。系统通过本地文件夹存储指纹库信息，并提供分步测试、登记和识别功能。 ## 项目的主要特性和功能 1. 指纹采集与预处理使用指纹采集器（中控ZK4500）进行指纹图像的采集。通过中值滤波、高斯锐化、均值化等方法对指纹图像进行预处理。 2. 特征提取与过滤使用Sobel算法进行方向计算，提取图像梯度信息。通过掩码计算和Gabor滤波增强指纹图像。使用基于边界的特征过滤算法，减少特征点数量，提高识别速度。 3. 指纹识别与登记提供指纹登记功能，用户可以通过采集指纹并输入姓名进行登记。提供指纹识别功能，通过采集指纹并与指纹库中的信息进行匹配，识别用户身份。

基于Unet技术的医学图像分割系统-DL00366：以皮肤病数据训练的自动分割模型,DL00366-基于Unet的医学图像分割系统用Unet来做医学图像分割我们将会以皮肤病的数据作为示范，训练: 基于Unet技术的医学图像分割系统——DL00366：以皮肤病数据训练的自动分割模型,DL00366-基于Unet的医学图像分割系统用Unet来做医学图像分割。我们将会以皮肤病的数据作为示范，训练一个皮肤病分割的模型出来，用户输入图像，模型可以自动分割去皮肤病的区域和正常的区域。 ,DL00366; 基于Unet的医学图像分割系统; 皮肤疾病数据; 模型训练; 图像自动分割。,基于Unet的皮肤病图像分割系统

毕业设计&课程设计&毕设&课设-java-旅游景点线路网站: 项目均经过测试，可正常运行！环境说明：开发语言：java JDK版本：jdk1.8 框架：springboot 数据库：mysql 5.7/8 数据库工具：navicat 开发软件：eclipse/idea

前端Node:第四章:大事件: 前端Node:第四章:大事件

(源码)基于区块链的金融管理系统.zip: # 基于区块链的金融管理系统 ## 项目简介本项目是一个基于区块链技术的金融管理系统，旨在提供一个去中心化、安全可靠的平台，用于处理公司间的财务交易。通过使用智能合约和Python SDK，用户可以进行银行操作、注册公司、登录系统以及进行各种财务操作。 ## 项目的主要特性和功能 ### 主要特性 1. 去中心化利用区块链技术，实现数据的去中心化管理。 2. 安全性通过智能合约和区块链技术，保障数据的安全性和不可篡改性。 3. 可靠性确保交易的可靠性和持久性。 ### 功能 1. 银行界面展示银行相关的数据，如存款、贷款等。 2. 注册与登录允许用户注册新账户并登录系统。 3. 公司管理允许用户创建公司账户，管理公司的财务信息。 4. 财务操作包括转账、购买、融资、还款等操作。 5. 智能合约交互通过Python SDK与智能合约进行交互，实现各种功能。 ## 安装使用步骤 ### 假设用户已经下载了本项目的源码文件

西门子S7-200 PLC与组态王联合楼宇消防系统电气控制设计解决方案 No.950,No.950 基于西门子S7-200 PLC和组态王楼宇消防系统电气控制系统设计 ,核心关键词：西门子: 西门子S7-200 PLC与组态王联合楼宇消防系统电气控制设计解决方案 No.950,No.950 基于西门子S7-200 PLC和组态王楼宇消防系统电气控制系统设计 ,核心关键词：西门子S7-200 PLC；组态王楼宇消防系统；电气控制系统设计；No.950,基于西门子S7-200 PLC的楼宇消防电气控制系统设计

java JDK11版本安装包: Java Development Kit (JDK) 11 版本简介 Java Development Kit (JDK) 作为Java平台的核心组件之一，是开发人员用来构建、运行和测试Java应用程序的必备工具集。JDK 11 是Oracle公司于2018年9月发布的长期支持（LTS）版本，标志着Java语言发展的一个重要里程碑。它不仅继承了之前版本的优点，还引入了一系列新特性与改进，以更好地适应现代软件开发的需求。主要特点：性能提升：通过优化垃圾回收机制等手段，JDK 11在性能方面取得了显著进步。模块化系统：基于Java 9中引入的模块化系统进一步优化，使得开发者能够更高效地组织代码结构，提高安全性及可维护性。增强的安全性：新增了多项安全功能，比如TLS 1.3的支持，以及对现有加密算法的加强。新的APIs：增加了许多实用的新APIs，如用于处理HTTP请求的HttpClient API正式版、本地变量类型推断var关键字等。移除过时元素：为了保持框架的简洁性和现代化，JDK 11移除了部分不推荐使用的API和选项。

2008-2020年各省国内发明专利申请授权量数据.xlsx: 2008-2020年各省国内发明专利申请授权量数据 1、时间：2008-2020年 2、来源：国家统计J、统计nj 3、指标：行政区划代码、地区、年份、国内发明专利申请授权量(项) 4、范围：31省

最近访客 更多访客>>