spark-学习笔记--6 创建RDD
创建 RDD
1、使用程序集合
2、使用本地文件
3、使用HDFS
并行化集合创建RDD
使用 SparkContext的 parallelize()方法-- 分布式数据集合
spark 会为每个 partition运行一个task进行处理。
spark 建议集群中的每个CPU创建2-4个 partition 。
spark 默认会根据集群情况来设置 partition数量,也可以调用 parallelize()时指定。
使用本地文件或HDFS
SparkContext的 textFile() 可以使用本地文件或HDFS文件创建 RDD
注意:1、本地文件 在Linux下 需要各个节点都有本地文件
2、spark的textFile()方法支持 对 目录、压缩文件、通配符 创建RDD
3、Spark 回味HDFS文件的每个block创建一个 partition,也可以手工指定,但是只可以指定比block数量大的数
本地文件 : JavaRDD<String> rdd = sc.textFile("d://yyx001.log");
HDFS文件 : JavaRDD<String> rdd = sc.textFile("hdfs://master:9000/666666666.txt");
parallelize: JavaRDD<Integer> rdd = context.parallelize(numbers);
相关推荐
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...
"Spark学习.md"很可能是一个Markdown格式的学习笔记或教程,Markdown是一种轻量级的文本格式语言,通常用于编写技术文档。这个文件可能涵盖了Spark的基础概念,比如RDD(弹性分布式数据集)、DataFrame、DataSet,...
Spark-x.x.x-bin-hadoop版本是Spark针对Hadoop的一个特定发行版,其中包含了运行Spark所需的所有组件,包括Spark核心、Spark SQL、Spark Streaming、MLlib(机器学习库)以及GraphX(图处理)。这个压缩包是为了在...
Spark 学习笔记 Spark 是一个基于内存的分布式计算框架,它提供了高效、灵活、可扩展的数据处理解决方案。Spark 的核心组件是 Resilient Distributed Dataset (RDD),它是一个弹性的分布式数据集合,提供了高效的...
创建Spark应用程序时,首先创建一个`SparkConf`实例,设置应用名称和主节点地址,然后使用`SparkConf`实例创建`JavaSparkContext`。 在本地测试和单元测试时,可以使用`local`模式启动Spark,例如`new ...
本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用,旨在帮助读者全面理解并掌握Spark。 1. Spark概述: Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理...
本资源 Spark 大数据处理学习笔记对 Spark 大数据处理进行了系统的学习笔记,涵盖了 Spark Standalone 集群的搭建、RDD 的创建和算子、RDD 的分区、RDD 典型案例等多个方面的知识点。 一、Spark 大数据处理学习笔记...
### Spark学习笔记 #### Apache Spark简介 Apache Spark是一款专为大规模数据处理而设计的高性能、通用的计算引擎。它的核心特点在于提供了强大的内存计算能力,从而显著提升了数据处理的速度。Spark最初采用Scala...
《Spark快速大数据分析》学习笔记頁面学习 Spark 闪电般快速的数据分析。作者Holden Karau、Andy Konwinski、Patrick Wendell、Matei Zaharia。 作者Ethan Brown (O'Reilly),使用 Node 和 Express 进行Git Web 开发...
spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用...
本篇笔记主要探讨Spark中的共享变量、RDD持久化、checkpoint机制、运行模式以及任务调度等相关知识点。 1. **共享变量** - **累加器(Accumulator)**:累加器是一种只能增加不能减少的共享变量,常用于统计任务中...
《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料,主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据,提升数据分析和处理的能力。 ...
Spark的核心数据抽象是弹性分布式数据集(RDD),RDD是只读的、分区的数据集合,分布在集群的不同节点上。RDD具有可分区性,每个RDD可以由多个分区组成。RDD之间的转换(即由一个RDD变为另一个RDD)通常在内存中完成...
SparkContext是Spark程序的入口点,它创建了Spark应用的基本上下文,负责与Master交互,创建RDD,以及调度任务。 RDD(弹性分布式数据集)是Spark的基础数据抽象,它是不可变的、分区的数据集。每个RDD都有一个分区...
2. **Spark MLlib**:介绍Spark的机器学习库,如何加载数据,创建DataFrame,使用DataFrame进行数据转换,以及如何应用MLlib中的算法(如决策树、梯度提升、朴素贝叶斯等)。还会涉及到分布式计算的概念,如RDD...