打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下
import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) } }
打包文件:
File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices
点击Output Layout 看看是否没有第三方jar包,因为你使用spark集群环境,所以你不需要第三方jar包
重新build:
Build-->>Build Artifcat ..--->>build 或者rebuild
执行后 就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar
上传到spark集群服务器的 spark_home下的myApp下
上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中
提交spark任务:
./bin/spark-submit --class "SimpleApp" --master local[4] myApp/study-scala.jar
执行结果为a:60,b:29
相关推荐
本文将深入探讨如何搭建Hadoop集群,并在此基础上配置YARN资源管理器,以及如何部署Spark集群,同时也会涉及到Spark的Python编程指南。 首先,让我们了解Hadoop。Hadoop是一个开源框架,主要用于分布式存储和计算,...
总结来说,这个压缩包提供了Scala开发Spark应用程序的实践代码,涵盖了Spark Core的基本操作、Spark SQL的结构化查询、Spark Streaming的实时处理,以及Spark RDD的使用。通过深入研究这些代码,你可以掌握Spark的...
5. 集群部署:可以将Spark应用提交到YARN、Mesos或独立Spark集群运行。 五、优化技巧 1. 内存管理:合理设置executor内存、driver内存,避免溢出,使用Tachyon或Alluxio作为缓存系统提升速度。 2. 广播变量和累加器...
### Spark集群及开发环境搭建(完整版) #### 一、软件及下载 本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作...
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询...
Local 模式是一种简单的本地运行模式,适用于开发测试环境。通过以下命令启动: ```bash ./bin/run-example org.apache.spark.examples.SparkPi local ``` 在 Local 模式下,LocalBackend 会响应 Scheduler 的请求,...
### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**:Spark是一款基于内存计算的大数据并行计算框架,旨在提供高效的数据处理能力。 - **特性**: - **内存计算**:利用内存提高数据处理...
"基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...
这份“Spark官方文档中文翻译”涵盖了Spark的核心概念、架构、使用方法以及API,对于理解并应用Spark进行大规模数据处理非常有帮助。 **1. Spark核心概念** Spark基于DAG(有向无环图)执行模型,它将计算任务分解...
Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理系统。与Hadoop MapReduce相比,Spark通过内存计算显著提升了迭代算法的执行效率,同时支持多种数据处理模型,包括...
Spark是Apache软件基金会旗下的开源大数据处理框架,由加州大学伯克利分校的AMP实验室开发,是基于内存计算的大数据并行处理系统。它提供了高层次的APIs,比如Java、Scala、Python、R等,用于数据挖掘、机器学习、...
在Windows环境中部署Spark运行环境是一项复杂但必要的任务,特别是对于那些在本地开发和测试Spark应用的开发者来说。本文将详细阐述如何在Windows上配置Spark,包括IntelliJ IDEA的使用,Spark 1.6的安装,Scala ...
接下来,从Apache官方网站下载Spark 2.x的安装包,例如`spark-2.1.0-bin-hadoop2.6.tgz`。然后通过SSH将文件上传到Linux服务器,并将其解压到指定目录,如`/usr/local/app`。注意,Spark的根目录下有一个名为RELEASE...
本实战指南基于Cloudera Distribution Including Apache Hadoop (CDH) 6.3.0 版本,并采用Apache Spark 2.4.0作为计算引擎。集群配置包含5个NodeManager节点,每个节点配备62.8GB内存(共64GB)、32核CPU。这样的...
本文主要介绍如何在 IntelliJ IDEA 中配置并连接到 Apache Spark 集群,以便进行 Spark 应用程序的开发。 #### 二、准备工作 在开始配置之前,请确保你已经安装了以下软件: - **Java**:Spark 应用基于 Java 平台...
Spark可以运行在本地模式、集群模式(如YARN、Mesos或独立部署)以及云环境。选择合适的部署模式取决于项目需求,如资源可用性、扩展性和运维复杂性。 七、性能优化 Spark项目中通常需要关注性能优化,包括: - ...
### Spark开发及本地环境搭建指南 #### 构建本机上的Spark开发环境 在构建Spark开发环境时,首先需要确保你的计算机上安装了必要...此外,还可以通过阅读官方文档、参与社区讨论等方式不断提升自己的Spark开发技能。
在自己的机器上配置spark的本地开发模式,可以用来测试spark代码是否正确,如果没问题,可以提交到spark集群上去运行,免去每次都要打包放到集群上去测试的麻烦。因为在网络上没找到合适的资源可以快速构建,所以就...
基于Spark实现的集群分布式计算框架,支持地理分布式数据的高效处理+源代码+文档说明,代码注释拉满,满分大作业资源,新手也可看懂,期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。该项目可以...
本文档主要讲解了使用Kafka和Spark Streaming进行实时数据处理的开发文档,涵盖了Kafka集群的搭建、Spark Streaming的配置和开发等内容。 一、Kafka集群搭建 首先,需要安装Kafka单机和集群环境配置。安装环境包括...