摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。
容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
(二):Kubernetes如何助力Spark大数据分析
概述
本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。
先决条件
你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群
从容器服务控制台创建一个Spark OSS实例
使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

- 给你的应用一个名字, e.g. spark-oss-online2
- (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker: # set OSS access keyID and secret oss_access_key_id: <Your sub-account> oss_access_key_secret: <your key_secret of sub-account>
3.(可选)修改工作节点数目 Worker.Replicas: 3

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例
6 点击 服务, 查看外部端点, 点击URL访问Spark集群


7 测试Spark集群
- 打开一个spark-shell
kubectl get pod | grep worker
spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m
kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs -- /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077
1.粘贴下列代码,使用Spark测试OSS的读写性
// Save RDD to OSS bucket val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2")) stringRdd.saveAsTextFile("oss://eric-new/testwrite12") // Read data from OSS bucket val lines = sc.textFile("oss://eric-new/testwrite12") lines.take(10).foreach(println)
Test Strings
Test String2
CLI 命令行操作
Setup keys and deploy spark cluster in one command
export OSS_ID=<your oss id> export OSS_SECRET=<your oss secrets> helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss myspark-oss-master ClusterIP 172.19.9.111 <none> 7077/TCP 2m myspark-oss-webui LoadBalancer 172.19.13.1 120.55.104.27 8080:30477/TCP 2m
阅读更多干货好文,请关注扫描以下二维码:
相关推荐
数据算法:Hadoop/Spark大数据处理技巧
《数据算法:Hadoop+Spark大数据处理技巧》是一本深入探讨大数据处理技术的专业书籍,主要聚焦于两大主流的大数据处理框架——Hadoop和Spark。这本书不仅涵盖了基础理论,还提供了丰富的实践指导,对于想要深入了解...
Scala和Spark是大数据分析领域中的两个重要工具,它们在处理大规模数据时表现出强大的性能和灵活性。Scala是一种静态类型的函数式编程语言,而Spark是一个分布式计算框架,尤其适合于大数据处理和分析。本教程将深入...
【标题】:“基于Spark的网易云音乐数据分析”项目是一个毕业设计,主要利用Apache Spark进行大规模音乐数据的处理和分析。这个项目提供了完整的源代码,确保能够运行,为学习和研究大数据处理提供了一个实用的实例...
《Spark大数据分析与实战》课程是一门深入探讨Apache Spark在大数据处理领域的应用和技术的课程,其课后练习答案集提供了对课程所讲授知识的巩固和实践。这是一份珍贵的配套教学资源,旨在帮助学生更好地理解和掌握...
Spark是一个强大的分布式计算框架,适合处理大规模数据集,而网易云音乐作为一个庞大的音乐平台,拥有大量用户数据和音乐信息,可以通过Spark进行深入的数据分析和挖掘。以下是一些可能的数据分析方向和方法: 1. *...
三种方式的spark on kubernetes对比,第一种:spark原生支持Kubernetes资源调度;第二种:google集成的Kubernetes的spark插件sparkoperator;第三种:standalone方式运行spark集群
本教程聚焦于Spark在大数据分析中的核心概念和技术,并结合使用原生编程语言Scala进行讲解,旨在为初学者提供一个简洁有效的学习路径,快速进入Spark的世界。 1. **Spark核心概念** - **RDD(弹性分布式数据集)**...
《数据算法:Hadoop+Spark大数据》中文版是一本深入探讨大数据处理的书籍,主要聚焦在Hadoop和Spark这两个在大数据领域中至关重要的框架。这本书的高清版为读者提供了清晰易读的阅读体验,是学习大数据算法和技术的...
### Spark与Hadoop大数据分析知识点解析 #### 一、大数据的关键特征 大数据具有以下几个关键特征: 1. **海量**:指的是数据量非常庞大,通常以PB级别甚至更高计量。 2. **多样化**:数据类型多样,包括结构化、半...
总结,本实训指导书将引导你通过Spark SQL进行法律服务网站的数据分析,涵盖数据导入、清洗、转换、建模、分析和可视化等多个环节,帮助你掌握大数据分析的关键技能,提升在法律服务领域的数据分析能力。在实际操作...
资源名称:数据算法:Hadoop、Spark大数据处理技巧资源截图: 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。
《Spark 快速大数据分析》是一本专注于利用Apache Spark进行高效大数据处理的书籍,适合对大数据、机器学习和数据挖掘感兴趣的...通过阅读这本书,你将能够利用Spark实现高效的数据处理,开启大数据领域的探索之旅。
这两个例子都体现了Spark的强大之处,它能有效地处理大规模数据,并且提供了丰富的API用于数据处理和分析。同时,通过自定义分区器和转换操作,我们可以实现更复杂的逻辑,以满足特定的业务需求。在实际的大数据项目...
在本压缩包“Python3实战Spark大数据分析及调度-第8章 Spark SQL.zip”中,主要探讨了如何利用Python3编程语言与Apache Spark框架进行大数据分析,特别是通过Spark SQL进行结构化数据处理和查询。这一章节是大数据...
《Spark快速大数据分析图谱》 Spark作为当前大数据处理领域中的明星框架,因其高效、易用和可扩展性而备受青睐。本资料“Spark快速大数据分析图谱”旨在帮助我们理解Spark如何在大数据分析中发挥关键作用,并通过....
《基于Java Spark的淘宝大数据分析可视化系统》 在当今数据驱动的时代,大数据分析与可视化已经成为企业决策的关键工具。本项目“源码地java spark淘宝大数据分析可视化系统”提供了一个全面的解决方案,它结合了...
Spark大数据处理技术是当下流行的分布式数据处理框架,由加州大学伯克利分校的AMPLab开发,后来成为Apache软件基金会的顶级项目。Spark提供了快速的、分布式的、可扩展的数据处理能力,其设计目标是为了处理大规模...
Spark大数据分析实战 Spark大数据分析实战 Spark大数据分析实战