import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.types._
import spark.implicits._
import org.apache.spark.sql.functions.udf
import org.apache.spark.sql._
object Run {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("test").setMaster("local")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
val sqlContext = new SQLContext(sc)
/**
* id age
* 1 30
* 2 29
* 3 21
*/
case class Person(id: Int, age: Int)
val idAgeRDDPerson = sc.parallelize(Array(Person(1, 30), Person(2, 29), Person(3, 21)))
// 优点1
// idAge.filter(_.age > "") // 编译时报错, int不能跟String比
// 优点2
idAgeRDDPerson.filter(_.age > 25) // 直接操作一个个的person对象
}
}
val spark = SparkSession
.builder()
.appName("SparkSessionZipsExample")
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
-------------------------------------
scala> val numDS = spark.range(5, 100, 5)
numDS: org.apache.spark.sql.Dataset[Long] = [id: bigint]
scala> numDS.orderBy(desc("id")).show(5)
+---+
| id|
+---+
| 95|
| 90|
| 85|
| 80|
| 75|
+---+
only showing top 5 rows
scala> numDS.describe().show()
+-------+------------------+
|summary| id|
+-------+------------------+
| count| 19|
| mean| 50.0|
| stddev|28.136571693556885|
| min| 5|
| max| 95|
+-------+------------------+
scala> val langPercentDF = spark.createDataFrame(List(("Scala", 35),
| ("Python", 30), ("R", 15), ("Java", 20)))
langPercentDF: org.apache.spark.sql.DataFrame = [_1: string, _2: int]
scala> val lpDF = langPercentDF.withColumnRenamed("_1", "language").withColumnRenamed("_2", "percent")
lpDF: org.apache.spark.sql.DataFrame = [language: string, percent: int]
scala> lpDF.orderBy(desc("percent")).show(false)
+--------+-------+
|language|percent|
+--------+-------+
|Scala |35 |
hadoop 状态查看地址:http://192.168.1.101:8088/
spark 状态查看地址:http://192.168.1.101:8082/
分享到:
相关推荐
随心所欲 与AWS上的spark-on-k8s运算符一起使用的...将IAM角色用于EKS上的服务帐户创建角色和服务帐户创建驱动程序的AWS角色为执行者创建AWS角色在spark作业名称空间中为执行者添加默认服务帐户EKS角色(可选) # NOTE:
《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料,主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据,提升数据分析和处理的能力。 ...
在“butte-java-note-编程文档”中,我们可以探索一系列丰富的IT知识点,涵盖了从基础到高级的Java编程、软件设计、系统架构以及大数据处理等多个领域。以下是对这些知识点的详细阐述: 1. **JVM(Java虚拟机)**:...
#Spark SQL HBase Connector##----------------Note: This Project is Deprecated---------------##--------------And This Project is Not Maintained---------------Spark SQL HBase Connector aim to query HBase...
8. **大数据**:这部分可能包含Hadoop、Spark、Flink等大数据处理框架的基本概念和使用案例,以及大数据存储、计算和分析的相关知识。 9. **数据库**:可能包括SQL基础、关系型数据库(如MySQL、Oracle)的管理与...
有关详细信息,请参见note。 在项目的根目录下,运行spark-shell -i wfp.scala ,结果将保存在文件rule_sets.txt中。 buildWin.scala是一个窗口定位算法。 它告诉事件将在哪个时间窗口中取决于事件的发生时间。 ...
Note anything during writing spark or scala python php golang gopher bigdata hadoop review 大数据 面试 面试题 大数据面试题 作者在Github的博客列表 本系列文档基于Spark 1.5-Hadoop 2.6撰写。 如果没有特殊...
"Data-Scince-Note-main" 这个文件名可能是这个压缩包的主目录或者入口文件,通常在这种情况下,它可能会包含一系列子文件夹和文件,比如Python脚本、Jupyter Notebook、Markdown格式的笔记、数据集、图表和报告等。...
HanShu-Note 叮叮叮铛,韩数的学习笔记(哆啦A梦配音) 大家好,我是韩数,这里收录了我的大多数学习笔记,包括Nginx,JAVA,Springboot,SpringCloud,Docker等后端常用的技术,大多数文章都经过markdown精心排版,...
现在,我们转向"code-note-master"这个文件名,它通常代表了一个Git仓库的主分支。在Git版本控制系统中,"master"是默认的分支,存放了项目的主线开发代码。这可能意味着这个压缩包包含了一个完整的Java代码笔记项目...
isarn-sketches-spark 在Apache Spark中惯用地使用isarn-sketches的例程和数据结构API文档如何在您的项目中使用 // Note that the version of spark is part of the release name.// This example is for spark 3.0:...
Note that for the generic terms spark and graphs we had to substitute the overly spe- cific Apache Spark and edges and vertices, but the trends can still be seen. A couple of these technologies, ...
word源码java 目录 Algorithm Princeton Stanford 其他 剑指Offer 大数据算法 CS61B Java Head First Java Head First设计模式 ...Spark OS Unix 操作系统概念 计算机网络 深入理解计算机系统 Labs
Spark是Apache Hadoop生态系统中的一个快速、通用且可扩展的大数据处理引擎,它以其高效的内存计算和DAG(有向无环图)执行模型而闻名。Sparknote是针对Spark的学习笔记,通常会涵盖Spark的基本概念、核心组件以及...
护手用于兼容性测试的生产者和消费者的 Apache Kafka 测试框架#先决条件Spark二进制文件主节点卡夫卡动物园管理员卡桑德拉#Note 此包仅用于在 Mesos 下使用。 #用法示例: ./gradlew jar./run.sh --name dataset --...
BigdataNote -----------欢迎访问------------ 我的个人博客: 我的个人公众号:GoAl分享 大数据优秀博客推荐: 过往记忆大数据博客: 董西城博客: lwx的数据田地: 美团技术团队: 林子雨厦门大学实验室: ...
HADOOP-COS功能说明Hadoop-COS实现了以腾讯云 COS 作为底层文件系统运行上层计算任务的功能,支持使用Hadoop、Spark以及Tez等处理存储在腾讯云COS对象存储系统上的数据。使用限制只适用于 COS V5 版本使用环境系统...
4. Spark with PySpark:Spark是处理大规模数据的快速、通用和可扩展的开源框架,其Python接口PySpark提供了丰富的API,使得Python开发者可以轻松地进行分布式计算。 五、Hadoop实际应用 Hadoop广泛应用于互联网...
:dollar_banknote: 分布式 :floppy_disk: Zookeeper :oncoming_fist: RPC :artist_palette: Netty :laptop: Linux Java基础 NIO 并发容器 JVM 分布式 zookeeper RPC Netty Linux 大数据框架学习...
目录介绍 Spark Streaming实时流处理项目实战 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、 ...3 note:对应的章节笔记