容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析 -

猫耳呀

浏览: 173369 次

最近访客更多访客>>

王囧草

hncdxf

huwenru

lvye351

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

大数据容器

摘要： 容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析 （二）：Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

（二）：Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合，允许Spark分布式内存计算，机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群，详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/

2 点击 “应用目录”

3 选择 "spark-oss", 点击 “参数”

￼

给你的应用一个名字， e.g. spark-oss-online2
（必选）填写你的oss_access_key_id和oss_access_key_secret

Worker: # set OSS access keyID and secret oss_access_key_id: <Your sub-account> oss_access_key_secret: <your key_secret of sub-account> 

3.（可选）修改工作节点数目 Worker.Replicas: 3

￼

4 点击 “部署”

5 点击 “Kubernetes 控制台”，查看部署实例

6 点击 服务， 查看外部端点, 点击URL访问Spark集群

￼

￼

7 测试Spark集群

打开一个spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs -- /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

1.粘贴下列代码，使用Spark测试OSS的读写性

// Save RDD to OSS bucket val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2")) stringRdd.saveAsTextFile("oss://eric-new/testwrite12") // Read data from OSS bucket val lines = sc.textFile("oss://eric-new/testwrite12") lines.take(10).foreach(println)

Test Strings

Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id> export OSS_SECRET=<your oss secrets> helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss 

kubectl get svc| grep oss myspark-oss-master ClusterIP 172.19.9.111 <none> 7077/TCP 2m myspark-oss-webui LoadBalancer 172.19.13.1 120.55.104.27 8080:30477/TCP 2m

原文链接

阅读更多干货好文，请关注扫描以下二维码： 

分享到：

阿里云与WPS深度合作，开放数据处理生态 | Kubernetes Ingress 高可靠部署最佳实践

2018-04-17 14:58
浏览 369
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

IBM面试求职经验整理: IBM，全称为国际商业机器公司，是全球领先的科技巨头，提供广泛的产品和服务，包括云计算、人工智能、数据分析、物联网、区块链技术等。作为求职者，你需要对这些领域有一定的了解，并能够结合实际案例进行讨论。 ...

PyPI 官网下载 | blackjack-gui-0.0.3.tar.gz: 《PyPI官网下载：探索blackjack-gui-0.0.3.tar.gz的分布式云原生之旅》 PyPI（Python Package Index）是Python开发者的重要资源库，它为全球的Python爱好者提供了丰富的开源库和模块。本文将深入探讨在PyPI官网下载...

code_practice:从零到英雄: 10. **人工智能与大数据**：Python库如TensorFlow、PyTorch用于深度学习，大数据处理涉及Hadoop、Spark等技术，为智能化应用提供可能。 11. **软件设计模式**：学习并应用工厂模式、单例模式、装饰器模式等设计模式...

PLC与WinCC实现三部十层电梯协同控制及优化技巧: 内容概要：本文详细介绍了参与西门子杯比赛中关于三部十层电梯系统的博图V15.1程序设计及其WinCC画面展示的内容。文中不仅展示了电梯系统的基本架构，如抢单逻辑、方向决策、状态机管理等核心算法（采用SCL语言编写），还分享了许多实际调试过程中遇到的问题及解决方案，例如未初始化变量导致的异常行为、状态机遗漏空闲状态、WinCC画面动态显示的挑战以及通信配置中的ASCII码解析错误等问题。此外，作者还特别提到一些创意性的设计，如电梯同时到达同一层时楼层显示器变为闪烁爱心的效果，以及节能模式下电梯自动停靠中间楼层的功能。适合人群：对PLC编程、工业自动化控制、电梯调度算法感兴趣的工程技术人员，尤其是准备参加类似竞赛的学生和技术爱好者。使用场景及目标：适用于希望深入了解PLC编程实践、掌握电梯群控系统的设计思路和技术要点的人士。通过学习本文可以更好地理解如何利用PLC进行复杂的机电一体化项目的开发，提高解决实际问题的能力。其他说明：文章风格幽默诙谐，将严肃的技术话题融入轻松的生活化比喻之中，使得原本枯燥的专业知识变得生动有趣。同时，文中提供的经验教训对于从事相关领域的工作者来说非常宝贵，能够帮助他们少走弯路并激发更多创新思维。

数据库第一章选择题练习(1).docx: 数据库第一章选择题练习(1).docx

spring-ai-pdf-document-reader-1.0.0-M7.jar中文文档.zip: # 【spring-ai-pdf-document-reader-1.0.0-M7.jar中文文档.zip】中包含：中文文档：【spring-ai-pdf-document-reader-1.0.0-M7-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【spring-ai-pdf-document-reader-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【spring-ai-pdf-document-reader-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【spring-ai-pdf-document-reader-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【spring-ai-pdf-document-reader-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： spring-ai-pdf-document-reader-1.0.0-M7.jar中文文档.zip,java,spring-ai-pdf-document-reader-1.0.0-M7.jar,org.springframework.ai,spring-ai-pdf-document-reader,1.0.0-M7,org.springframework.ai.reader.pdf,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,pdf,document,reader,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【spri

深度学习答辩PPT案例展示: 适用于理工专业的毕业生，毕业答辩时可供参考，叙述详细准确，可以作为自己答辩PPT的参考

weixin248食堂订餐小程序ssm(文档+源码)_kaic: weixin248食堂订餐小程序ssm(文档+源码)_kaic

spring-ai-weaviate-store-1.0.0-M6.jar中文文档.zip: # 压缩文件中包含：中文文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

【RF-SSA-LSTM】随机森林-麻雀优化算法优化时间序列预测研究附Python代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

【图像分割和识别】活动形状模型（ASM）和活动外观模型（AAM）附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

基于主从博弈的电热综合能源系统动态定价与能量管理MATLAB仿真: 内容概要：本文详细介绍了如何利用主从博弈（Stackelberg Game）模型进行电热综合能源系统的动态定价与能量管理。首先解释了主从博弈的基本概念及其在电热综合能源系统中的应用背景，即供电公司作为领导者通过制定电价策略影响用户行为，用户作为追随者根据电价调整用电模式。接着，通过MATLAB编写仿真程序，具体展示了供电公司定价策略、用户响应模型以及主从博弈迭代过程。仿真结果显示，电价与用电需求之间存在动态平衡关系，供电公司可通过调整电价引导用户合理用电，实现系统整体最优运行。此外，文中还讨论了热力系统建模、成本计算方法、博弈迭代收敛条件等关键技术细节，并对未来的研究方向进行了展望。适合人群：从事能源管理系统设计、优化及相关领域的研究人员和技术人员，特别是对博弈论在能源系统中的应用感兴趣的学者。使用场景及目标：适用于希望深入了解电热综合能源系统中动态定价与能量管理机制的人群。主要目标是通过理论分析和MATLAB仿真，帮助读者掌握主从博弈模型的应用方法，为实际工程设计提供参考。其他说明：文中提供了详细的MATLAB代码示例，便于读者理解和复现实验结果。同时强调了在实际应用中需要考虑更多不确定性和个性化需求等问题。

Android SO逆向-基本数据类型及函数的工作原理.pdf: Android逆向过程学习

2级C全国计算机考试上机题库汇总.doc: 2级C全国计算机考试上机题库汇总.doc

房地产 -龙湖物业品质提升小方法.doc: 房地产 -龙湖物业品质提升小方法.doc

基于S7-200 PLC与MCGS组态的煤矿排水系统自动化控制方案解析: 内容概要：本文详细介绍了基于S7-200 PLC和MCGS组态软件构建的煤矿排水系统控制方案。主要内容涵盖IO分配、梯形图程序设计、接线图原理、MCGS组态画面配置等方面。通过对水位传感器、故障传感器等输入设备和排水泵、报警装置等输出设备的精确控制，确保了排水系统的高效、可靠运行。文中还分享了一些实际项目中的调试经验和故障排除技巧，如硬件配置优化、信号干扰处理、水位监测精度提升等。适合人群：从事工业自动化领域的工程师和技术人员，特别是对PLC编程和组态软件有一定了解的人群。使用场景及目标：适用于煤矿及其他矿业企业的排水系统自动化改造项目，旨在提高排水系统的安全性、稳定性和智能化水平，减少人工干预，预防潜在风险。其他说明：文章不仅提供了理论指导，还包括大量实战经验分享，有助于读者更好地理解和掌握相关技术和应用场景。

【蓝桥杯EDA】客观题解析：第十三届省赛模拟题一.pdf: 【蓝桥杯EDA】客观题解析

从移动激光雷达点云中提取电源线附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

【数学建模竞赛】华中杯数学建模竞赛介绍：参赛指南与备赛建议: 内容概要：“华中杯”是由华中地区高校或相关机构举办的数学建模竞赛，旨在培养学生的创新能力和团队合作精神。比赛主要面向全国高校在校生（以本科生为主，部分赛事允许研究生参加），采用团队赛形式（3人一组），参赛队伍需在72小时内完成建模、编程及论文写作。竞赛一般在每年4月或5月举行，设有多个奖项，具体比例根据参赛队伍数量确定。; 适合人群：对数学建模感兴趣并希望提升自身能力的全国高校在校生（本科生为主，部分赛事允许研究生参加）。; 使用场景及目标：①帮助学生了解数学建模竞赛的形式与流程；②为参赛者提供备赛建议，如学习往届真题、掌握Matlab、Python、LaTeX等工具以及明确团队分工；③鼓励学生关注官方通知，确保获取最新赛程和规则信息。; 其他说明：2025年的具体赛程、规则可能会有所调整，请以“华中杯数学建模竞赛官网”或主办方通知为准。可通过学校数学系或相关社团获取报名信息。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

评论

发表评论

相关推荐

最近访客更多访客>>