spark-学习笔记--6 创建RDD - 杨中磊的博客 - ITeye博客

`

05rjyzl11

浏览: 151787 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

isaiah282485068：怎么不出书出来啊，市场上好却这方面的书啊
mule in action翻译1 : 第一部分 mule 核心

spark-学习笔记--6 创建RDD

博客分类：

spark

阅读更多

spark-学习笔记--6 创建RDD

创建 RDD

1、使用程序集合

2、使用本地文件

3、使用HDFS

并行化集合创建RDD

使用 SparkContext的 parallelize()方法-- 分布式数据集合

spark 会为每个 partition运行一个task进行处理。

spark 建议集群中的每个CPU创建2-4个 partition 。

spark 默认会根据集群情况来设置 partition数量，也可以调用 parallelize()时指定。

使用本地文件或HDFS

SparkContext的 textFile() 可以使用本地文件或HDFS文件创建 RDD

注意：1、本地文件在Linux下需要各个节点都有本地文件

2、spark的textFile()方法支持对目录、压缩文件、通配符创建RDD

3、Spark 回味HDFS文件的每个block创建一个 partition，也可以手工指定，但是只可以指定比block数量大的数

本地文件： JavaRDD<String> rdd = sc.textFile("d://yyx001.log");

HDFS文件： JavaRDD<String> rdd = sc.textFile("hdfs://master:9000/666666666.txt");

parallelize： JavaRDD<Integer> rdd = context.parallelize(numbers);

分享到：

-转--linux 文本命令 | spark-学习笔记--5 wordcount scala版

2018-10-25 16:05
浏览 286
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark-Core学习知识笔记整理: Spark-Core文档是本人经三年总结笔记汇总而来，对于自我学习Spark核心基础知识非常方便，资料中例举完善，内容丰富。具体目录如下：目录第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...

Spark-学习.rar: "Spark学习.md"很可能是一个Markdown格式的学习笔记或教程，Markdown是一种轻量级的文本格式语言，通常用于编写技术文档。这个文件可能涵盖了Spark的基础概念，比如RDD（弹性分布式数据集）、DataFrame、DataSet，...

本地调试所需spark-x.x.x-bin-hadoop包: Spark-x.x.x-bin-hadoop版本是Spark针对Hadoop的一个特定发行版，其中包含了运行Spark所需的所有组件，包括Spark核心、Spark SQL、Spark Streaming、MLlib（机器学习库）以及GraphX（图处理）。这个压缩包是为了在...

Spark学习笔记 Spark学习笔记 Spark学习笔记: Spark 学习笔记 Spark 是一个基于内存的分布式计算框架，它提供了高效、灵活、可扩展的数据处理解决方案。Spark 的核心组件是 Resilient Distributed Dataset (RDD)，它是一个弹性的分布式数据集合，提供了高效的...

spark 笔记、学习笔记、资料: 创建Spark应用程序时，首先创建一个`SparkConf`实例，设置应用名称和主节点地址，然后使用`SparkConf`实例创建`JavaSparkContext`。在本地测试和单元测试时，可以使用`local`模式启动Spark，例如`new ...

spark笔记整理文档: 本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用，旨在帮助读者全面理解并掌握Spark。 1. Spark概述： Spark最初由加州大学伯克利分校AMPLab开发，其设计理念是提供一个快速、通用且可扩展的大数据处理...

Spark大数据处理学习笔记: 本资源 Spark 大数据处理学习笔记对 Spark 大数据处理进行了系统的学习笔记，涵盖了 Spark Standalone 集群的搭建、RDD 的创建和算子、RDD 的分区、RDD 典型案例等多个方面的知识点。一、Spark 大数据处理学习笔记...

spark学习笔记: ### Spark学习笔记 #### Apache Spark简介 Apache Spark是一款专为大规模数据处理而设计的高性能、通用的计算引擎。它的核心特点在于提供了强大的内存计算能力，从而显著提升了数据处理的速度。Spark最初采用Scala...

《Spark快速大数据分析》学习笔记.zip: 《Spark快速大数据分析》学习笔记頁面学习 Spark 闪电般快速的数据分析。作者Holden Karau、Andy Konwinski、Patrick Wendell、Matei Zaharia。作者Ethan Brown (O'Reilly)，使用 Node 和 Express 进行Git Web 开发...

Spark学习笔记: spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题，其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面，正日益壮大。大型公司争相实用...

Spark学习笔记三: 本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器（Accumulator）**：累加器是一种只能增加不能减少的共享变量，常用于统计任务中...

spark-source-code-learn-note:火花学习笔记-spark source code: 《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料，主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据，提升数据分析和处理的能力。 ...

Spark学习笔记一: Spark的核心数据抽象是弹性分布式数据集（RDD），RDD是只读的、分区的数据集合，分布在集群的不同节点上。RDD具有可分区性，每个RDD可以由多个分区组成。RDD之间的转换（即由一个RDD变为另一个RDD）通常在内存中完成...

spark源码阅读笔记: SparkContext是Spark程序的入口点，它创建了Spark应用的基本上下文，负责与Master交互，创建RDD，以及调度任务。 RDD（弹性分布式数据集）是Spark的基础数据抽象，它是不可变的、分区的数据集。每个RDD都有一个分区...

scikit-learn-to-spark-ml:笔记本比较scikit-learn和Spark ML来构建机器学习管道: 2. **Spark MLlib**：介绍Spark的机器学习库，如何加载数据，创建DataFrame，使用DataFrame进行数据转换，以及如何应用MLlib中的算法（如决策树、梯度提升、朴素贝叶斯等）。还会涉及到分布式计算的概念，如RDD...

Global site tag (gtag.js) - Google Analytics