Spark API编程动手实战-05-spark文件操作和debug - stark_summer - ITeye博客

`

Stark_Summer

浏览: 723999 次
性别:
来自: 大连

最近访客更多访客>>

loginboot

街头诗人

ahww520

sz_jack

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lixuanbin： iteye已经快要tj了吧。。
iteye为什么不支持markdown?
haorengoodman： Tachyon 能在做数据分类吗？例如我有一坨hdfs文件，将 ...
tachyon与hdfs,以及spark整合
lee3836：求源码，大牛
clover分布式任务调度系统
cfan37： ...
sparksql与hive整合
greemranqq： 9.9 送上，希望博客长久~。~
【【【【【#####>>>>>【关于我】【您·的·支·持·是·我·最·大·的·动·力】<<<<<#####】】】】】

Spark API编程动手实战-05-spark文件操作和debug

博客分类：

spark

executor-memory HadoopRDD MappedRDD FlatMappedRDD ShuffledRDD

阅读更多

这次我们以指定executor-memory参数的方式来启动spark-shell：

启动成功了

在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小，启动成功后参看web页面：

从hdfs上读取文件：

在命令行中返回的MappedRDD，使用toDebugString，可以查看其lineage的关系：

可以看出MappedRDD是从HadoopRDD转换而来的

再看下textFile的源代码：

hadoopFile这个方法返回的是一个HadoopRDD，源码如下所示：

而map方法产生的是一个MappedRDD：

下面进行一个简单的wordcount操作：

执行结果：

再次使用toDebugString，查看下依赖关系：

HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD

1
顶

1
踩

分享到：

Linux下解压命令大全解压缩 tar bz2 zip ... | Spark API编程动手实战-04-以在Spark 1.2 ...

2015-02-02 20:10
浏览 2156
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark实战高手之路-第5章Spark API编程动手实战（2）: Spark实战高手之路-第5章Spark API编程动手实战（2）

Spark实战高手之路-第5章Spark API编程动手实战（1）: ### Spark实战高手之路-第5章Spark API编程动手实战（1） #### 一、基础知识概述 **Spark**作为一项先进的大数据处理技术，在云计算领域占据着举足轻重的地位。本书《Spark实战高手之路》旨在帮助读者从零开始，...

Spark实战高手之路-第6章Spark SQL编程动手实战(1): ### Spark实战高手之路-第6章Spark SQL编程动手实战(1) 知识点提炼 #### 一、Spark概述及重要性 - **Spark** 是一种高性能的大数据处理框架，相较于传统的Hadoop MapReduce有着显著的优势，如内存计算、统一的数据...

Spark实战高手之路 - Spark亚太研究院.part4.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

Spark实战高手之路 - Spark亚太研究院.part3.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

Spark实战高手之路 - Spark亚太研究院.part2.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

spark资源 spark-2.3.2-bin-hadoop2.7 tgz文件: spark资源 spark-2.3.2-bin-hadoop2.7 tgz文件

Spark实战高手之路 - Spark亚太研究院.part1.rar: 【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（1）【Spark亚太研究院系列丛书】Spark实战高手之路-第5章Spark API编程动手实战（2）【Spark亚太研究院系列丛书】Spark实战高手之路-...

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar: - 配置：根据环境修改conf目录下的配置文件，如`spark-defaults.conf`和`spark-env.sh`。 - 启动：启动Spark的Master和Worker节点，准备运行任务。 - 运行应用：使用Spark Shell或提交Spark应用程序到集群执行。 ...

spark-3.1.3-bin-without-hadoop.tgz: 1. 解压压缩包：使用tar命令解压文件，例如`tar -xvf spark-3.1.3-bin-without-hadoop.tgz`。 2. 配置环境变量：在`~/.bashrc`或`~/.bash_profile`中设置SPARK_HOME，并将Spark的bin目录添加到PATH。 3. 如果在...

spark-2.1.0-bin-without-hadoop版本的压缩包，直接下载到本地解压后即可使用: 在Ubuntu里安装spark，spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模...

spark-3.2.4-bin-hadoop3.2-scala2.13 安装包: 在本安装包“spark-3.2.4-bin-hadoop3.2-scala2.13”中，包含了用于运行Spark的核心组件以及依赖的Hadoop版本和Scala编程语言支持。以下是对这些关键组成部分的详细解释： 1. **Spark**: Spark的核心在于它的弹性...

Spark高手之路-Spark SQL编程动手实战: 《Spark高手之路-Spark SQL编程动手实战》是针对大数据处理领域的高级学习资料，旨在帮助读者深入理解Spark框架，特别是其SQL编程方面的应用。本指南涵盖了Spark框架的核心概念、源码解析以及在各种业务场景下的实战...

spark-2.4.7-bin-without-hadoop: 为了使用"spark-2.4.7-bin-without-hadoop"，你需要首先下载并解压提供的spark-2.4.7-bin-without-hadoop.tgz文件。解压后，你可以找到包含Spark所有组件的目录结构，包括Spark的可执行文件、配置文件以及相关的库...

spark-3.2.1-bin-hadoop2.7.tgz: 总结一下，"spark-3.2.1-bin-hadoop2.7.tgz"是一个专为Linux设计的Spark版本，与Hadoop 2.7兼容，提供了高效的大数据处理能力，涵盖了核心计算、SQL查询、流处理、机器学习和图计算等多个方面。在实际应用中，开发者...

spark-2.3.1-bin-hadoop2.7.zip: 在"spark-2.3.1-bin-hadoop2.7.zip"中，你将找到以下关键文件和目录： - `bin`：包含Spark的可执行脚本，如`spark-shell`（Scala交互式环境）、`pyspark`（Python交互式环境）和`spark-submit`（提交Spark应用）等。...

Spark 入门实战系列: Spark 入门实战系列，适合初学者，文档包括十部分内容，质量很好，为了感谢文档作者，也为了帮助更多的人入门，传播作者的心血，特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署（上）--基础环境搭建....

spark-1.6.0-bin-hadoop2.6.tgz: - 配置`spark-env.sh`文件，根据实际环境设置`JAVA_HOME`, `HADOOP_CONF_DIR`等参数。 - 如果需要运行在Hadoop YARN上，还需要配置`yarn-site.xml`和`core-site.xml`等相关Hadoop配置文件。 - 启动Spark相关服务，如...

spark-assembly-1.5.2-hadoop2.6.0.jar: 《Spark编程核心组件：spark-assembly-1.5.2-hadoop2.6.0.jar详解》在大数据处理领域，Spark以其高效、易用和灵活性脱颖而出，成为了许多开发者的首选框架。Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark中的一个...

spark-3.2.0-bin-hadoop3.2.tgz: 这个压缩包"spark-3.2.0-bin-hadoop3.2.tgz"包含了Spark 3.2.0版本的二进制文件，以及针对Hadoop 3.2的兼容构建。 Spark的核心组件包括：Spark Core、Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图...

Global site tag (gtag.js) - Google Analytics