Spark 集群的搭建学习(1.6.3)

艾伦蓝

浏览: 614233 次
性别:
来自: 厦门

最近访客更多访客>>

stephen830

njdccy

lzy8828

WangJiaX

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

Spark是一个快速、通用的计算集群框架，它的内核使用Scala语言编写，它提供了Scala、Java和Python编程语言high-level API，使用这些API能够非常容易地开发并行处理的应用程序。
下面，我们通过搭建Spark集群计算环境，并进行简单地验证，来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序（用Scala，Spark默认提供的Shell环境可以直接输入Scala代码进行数据处理），我们都会觉得比Hadoop MapReduce计算框架要简单得多，而且，Spark可以很好地与HDFS进行交互（从HDFS读取数据，以及写数据到HDFS中）。

安装配置
下载安装配置Scala

wget http://www.scala-lang.org/files/archive/scala-2.11.8.tgz
tar xvzf scala-2.11.8.tgz

在~/.bashrc中增加环境变量SCALA_HOME，并使之生效：

export SCALA_HOME=/usr/scala/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin

下载安装配置Spark
我们首先在主节点m1上配置Spark程序，然后将配置好的程序文件复制分发到集群的各个从结点上。下载解压缩：

wget http://d3kbcqa49mib13.cloudfront.net/spark-1.6.3-incubating-bin-hadoop1.tgz
tar xvzf spark-1.6.3-incubating-bin-hadoop1.tgz

在~/.bashrc中增加环境变量SPARK_HOME，并使之生效：

export SPARK_HOME=/home/shirdrn/cloud/programs/spark-1.6.3-incubating-bin-hadoop1
export PATH=$PATH:$SPARK_HOME/bin

在m1上配置Spark，修改spark-env.sh配置文件：

cd /home/shirdrn/cloud/programs/spark-1.6.3-incubating-bin-hadoop1/conf
cp spark-env.sh.template spark-env.sh

在该脚本文件中，同时将SCALA_HOME配置为Unix环境下实际指向路径，例如：

export SCALA_HOME=/opt/scala-2.11.8
export JAVA_HOME=/opt/java/jdk1.7.0_80
export SPARK_MASTER_IP=192.168.109.137
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.6.4/etc/hadoop

修改conf/slaves文件，将计算节点的主机名添加到该文件，一行一个，例如：

s1
s2
s3

spark与hive进行整合
启动hive metastore
后台运行

hive --service metastore &

spark配置

将 $HIVE_HOME/conf/hive-site.xml copy或者软链 到 $SPARK_HOME/conf/
将 $HIVE_HOME/lib/mysql-connector-java-5.1.12.jar copy或者软链到$SPARK_HOME/lib/
copy或者软链$SPARK_HOME/lib/ 是方便spark standalone模式使用

运行需要指定Jar文件

./bin/spark-sql --master spark:master:7077 --jars /home/stark_summer/spark/spark-1.4/spark-1.4.1/lib/mysql-connector-java-5.1.12.jar

最后，将Spark的程序文件和配置文件拷贝分发到从节点机器上：

scp -r ~/cloud/programs/spark-0.9.0-incubating-bin-hadoop1 shirdrn@s1:~/cloud/programs/
scp -r ~/cloud/programs/spark-0.9.0-incubating-bin-hadoop1 shirdrn@s2:~/cloud/programs/
scp -r ~/cloud/programs/spark-0.9.0-incubating-bin-hadoop1 shirdrn@s3:~/cloud/programs/

启动Spark集群
我们会使用HDFS集群上存储的数据作为计算的输入，所以首先要把Hadoop集群安装配置好，并成功启动，我这里使用的是Hadoop 1.2.1版本。启动Spark计算集群非常简单，执行如下命令即可：

cd /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/
sbin/start-all.sh

可以看到，在m1上启动了一个名称为Master的进程，在s1上启动了一个名称为Worker的进程，如下所示，我这里也启动了Hadoop集群：
主节点m1上：

54968 SecondaryNameNode
55651 Master
55087 JobTracker
54814 NameNode

从节点s1上：

33592 Worker
33442 TaskTracker
33336 DataNode

各个进程是否启动成功，也可以查看日志来诊断，例如：

主节点上：
tail -100f $SPARK_HOME/logs/spark-shirdrn-org.apache.spark.deploy.master.Master-1-m1.out
从节点上：
tail -100f $SPARK_HOME/logs/spark-shirdrn-org.apache.spark.deploy.worker.Worker-1-s1.out
Spark集群计算验证

我们使用我的网站的访问日志文件来演示，示例如下：

27.159.254.192 - - [21/Feb/2014:11:40:46 +0800] "GET /archives/526.html HTTP/1.1" 200 12080 "http://shiyanjun.cn/archives/526.html" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"

120.43.4.206 - - [21/Feb/2014:10:37:37 +0800] "GET /archives/417.html HTTP/1.1" 200 11464 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"

统计该文件里面IP地址出现频率，来验证Spark集群能够正常计算。另外，我们需要从HDFS中读取这个日志文件，然后统计IP地址频率，最后将结果再保存到HDFS中的指定目录。
首先，需要启动用来提交计算任务的Spark Shell：

bin/spark-shell
在Spark Shell上只能使用Scala语言写代码来运行。
然后，执行统计IP地址频率，在Spark Shell中执行如下代码来实现：

val file = sc.textFile("hdfs://m1:9000/user/shirdrn/wwwlog20140222.log")
val result = file.flatMap(line => line.split("\\s+.*")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

上述的文件hdfs://m1:9000/user/shirdrn/wwwlog20140222.log是输入日志文件。处理过程的日志信息，示例如下所示：

....
res14: Array[(String, Int)] = Array((27.159.254.192,28), (120.43.9.81,40), (120.43.4.206,16), (120.37.242.176,56), (64.31.25.60,2), (27.153.161.9,32), (202.43.145.163,24), (61.187.102.6,1), (117.26.195.116,12), (27.153.186.194,64), (123.125.71.91,1), (110.85.106.105,64), (110.86.184.182,36), (27.150.247.36,52), (110.86.166.52,60), (175.98.162.2,20), (61.136.166.16,1), (46.105.105.217,1), (27.150.223.49,52), (112.5.252.6,20), (121.205.242.4,76), (183.61.174.211,3), (27.153.230.35,36), (112.111.172.96,40), (112.5.234.157,3), (144.76.95.232,7), (31.204.154.144,28), (123.125.71.22,1), (80.82.64.118,3), (27.153.248.188,160), (112.5.252.187,40), (221.219.105.71,4), (74.82.169.79,19), (117.26.253.195,32), (120.33.244.205,152), (110.86.165.8,84), (117.26.86.172,136), (27.153.233.101,8), (123.12...

可以看到，输出了经过map和reduce计算后的部分结果。
最后，我们想要将结果保存到HDFS中，只要输入如下代码：

result.saveAsTextFile("hdfs://m1:9000/user/shirdrn/wwwlog20140222.log.result")

查看HDFS上的结果数据：

[shirdrn@m1 ~]$ hadoop fs -cat /user/shirdrn/wwwlog20140222.log.result/part-00000 | head -5
(27.159.254.192,28)
(120.43.9.81,40)
(120.43.4.206,16)
(120.37.242.176,56)
(64.31.25.60,2)

转自：http://www.cnblogs.com/onetwo/p/5424377.html

分享到：

Hadoop YARN完全分布式配置学习 | Spark SQL简单示例学习

2017-04-25 14:30
浏览 801
评论(0)
分类:编程语言
查看更多

发表评论

文章已被作者锁定，不允许评论。

相关推荐

SNS单模无芯光纤仿真与传感器结构特性分析——基于Rsoft beamprop模块: 内容概要：本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性，利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况，进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真，包括损耗、色散和模式耦合等参数的评估。随后，文章分析了光纤的结构特性，如折射率分布、包层和纤芯直径对性能的影响，并探讨了镀膜技术对光纤性能的提升作用。最后，进行了变形仿真分析，研究外部因素导致的光纤变形对其性能的影响。通过这些分析，为优化光纤设计提供了理论依据。适合人群：从事光纤通信、光学工程及相关领域的研究人员和技术人员。使用场景及目标：适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目，旨在提高光纤性能并拓展其应用场景。其他说明：本文不仅提供了详细的仿真方法和技术细节，还对未来的发展方向进行了展望，强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。

发那科USM通讯程序socket-rece: 发那科USM通讯程序socket-set

嵌入式八股文面试题库资料知识宝典-WIFI.zip: 嵌入式八股文面试题库资料知识宝典-WIFI.zip

JS+HTML源码与image: 源码与image

物流行业车辆路径优化：基于遗传算法和其他优化算法的MATLAB实现及应用: 内容概要：本文详细探讨了物流行业中路径规划与车辆路径优化（VRP）的问题，特别是针对冷链物流、带时间窗的车辆路径优化（VRPTW）、考虑充电桩的车辆路径优化（EVRP）以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景，还提供了完整的MATLAB代码及注释，帮助读者理解这些算法的具体实现。此外，文章还讨论了如何通过MATLAB处理大量数据和复杂计算，以得出最优的路径方案。适合人群：从事物流行业的研究人员和技术人员，尤其是对路径优化感兴趣的开发者和工程师。使用场景及目标：适用于需要优化车辆路径的企业和个人，旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码，读者可以在实际工作中应用这些优化方法，提升物流系统的性能。其他说明：为了更好地理解和应用这些算法，建议读者参考相关文献和教程进行深入学习。同时，实际应用中还需根据具体情况进行参数调整和优化。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

基于灰狼优化算法的城市路径规划Matlab实现——解决TSP问题: 内容概要：本文介绍了基于灰狼优化算法（GWO）的城市路径规划优化问题（TSP），并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理，包括寻找猎物、围捕猎物和攻击猎物三个阶段，并提供了具体的代码示例。通过不断迭代优化路径，最终得到最优的城市路径规划方案。与传统TSP求解方法相比，GWO算法具有更好的全局搜索能力和较快的收敛速度，适用于复杂的城市环境。尽管如此，算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。适合人群：对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。使用场景及目标：①研究和开发高效的路径规划算法；②优化城市交通系统，提升出行效率；③探索人工智能在交通领域的应用。其他说明：文中提到的代码可以作为学习和研究的基础，但实际应用中需要根据具体情况调整算法参数和优化策略。

嵌入式八股文面试题库资料知识宝典-Intel3.zip: 嵌入式八股文面试题库资料知识宝典-Intel3.zip

嵌入式八股文面试题库资料知识宝典-2019京东C++.zip: 嵌入式八股文面试题库资料知识宝典-2019京东C++.zip

嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip: 嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip

物理学领域十字形声子晶体的能带与传输特性研究及应用: 内容概要：本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位，特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响，并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性，即它对声波的调控能力，包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性，并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。适合人群：从事物理学、材料科学、声学等相关领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者，旨在为相关领域的创新和发展提供理论支持和技术指导。其他说明：文中还对未来的研究方向进行了展望，强调了声子晶体在未来多个领域的潜在应用价值。

嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_.zip: 嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_

e2b8a-main.zip: e2b8a-main.zip

少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip: 少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip

【HarmonyOS分布式技术】远程启动子系统详解：跨设备无缝启动与智能协同的应用场景及未来展望: 内容概要：本文详细介绍了HarmonyOS分布式远程启动子系统，该系统作为HarmonyOS的重要组成部分，旨在打破设备间的界限，实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术，它能够快速、稳定地实现设备间的通信和数据同步，为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景，展示了其在提升效率和用户体验方面的巨大潜力。最后，文章展望了该系统的未来发展，强调其在技术优化和应用场景拓展上的无限可能性。适合人群：对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。使用场景及目标：①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节；②探索该系统在智能家居、智能办公和教育等领域的具体应用场景；③了解该系统为开发者提供的开发优势和实践要点。其他说明：本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景，还展望了其未来的发展方向。通过阅读本文，用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验，为智能生活带来新的变革。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip

少儿编程scratch项目源代码文件案例素材-激光反弹.zip: 少儿编程scratch项目源代码文件案例素材-激光反弹.zip

COMSOL相控阵检测技术在有机玻璃斜楔中检测工件内部缺陷的应用研究: 内容概要：本文详细介绍了COMSOL相控阵检测技术在有机玻璃斜楔上放置16阵元进行工件内部缺陷检测的方法。首先阐述了相控阵检测技术的基本原理，特别是通过控制各阵元的激发时间和相位来实现声波的聚焦和扫描。接着，重点解析了横孔缺陷的反射接收波，解释了波的折射现象及其背后的物理原因。最后，通过实例展示了COMSOL模拟声波传播过程的成功应用，验证了该技术的有效性和准确性。适合人群：从事固体力学、无损检测领域的研究人员和技术人员，尤其是对相控阵检测技术和COMSOL仿真感兴趣的读者。使用场景及目标：适用于需要精确检测工件内部缺陷的研究和工业应用场景，旨在提高检测精度和效率，确保产品质量和安全。其他说明：文中提到的声速匹配现象有助于理解波在不同介质间的传播特性，这对优化检测参数设置有重要意义。

少儿编程scratch项目源代码文件案例素材-极速奔跑者.zip: 少儿编程scratch项目源代码文件案例素材-极速奔跑者.zip

嵌入式八股文面试题库资料知识宝典-微软_interview.zip: 嵌入式八股文面试题库资料知识宝典-微软_interview.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论