`

本地开发spark代码上传spark集群服务并运行(基于spark官网文档)

阅读更多

打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下

 

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

打包文件:

 

File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices 

点击Output Layout  看看是否没有第三方jar包,因为你使用spark集群环境,所以你不需要第三方jar包

重新build:

Build-->>Build Artifcat ..--->>build 或者rebuild

执行后 就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar

上传到spark集群服务器的 spark_home下的myApp下

上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中

提交spark任务:

 ./bin/spark-submit  --class "SimpleApp" --master local[4]  myApp/study-scala.jar

执行结果为a:60,b:29


 

0
4
分享到:
评论

相关推荐

    Hadoop及Spark集群搭建文档

    本文将深入探讨如何搭建Hadoop集群,并在此基础上配置YARN资源管理器,以及如何部署Spark集群,同时也会涉及到Spark的Python编程指南。 首先,让我们了解Hadoop。Hadoop是一个开源框架,主要用于分布式存储和计算,...

    scala开发spark代码

    总结来说,这个压缩包提供了Scala开发Spark应用程序的实践代码,涵盖了Spark Core的基本操作、Spark SQL的结构化查询、Spark Streaming的实时处理,以及Spark RDD的使用。通过深入研究这些代码,你可以掌握Spark的...

    Spark开发指导文档

    5. 集群部署:可以将Spark应用提交到YARN、Mesos或独立Spark集群运行。 五、优化技巧 1. 内存管理:合理设置executor内存、driver内存,避免溢出,使用Tachyon或Alluxio作为缓存系统提升速度。 2. 广播变量和累加器...

    Spark集群及开发环境搭建(完整版)

    Spark集群及开发环境搭建,适合初学者,一步一步并配有截图。 目录 一、 软件及下载 2 二、 集群环境信息 2 三、 机器安装 2 1. 安装虚拟机VirtualBox 2 2. 安装CentOs7 2 四、 基础环境搭建(hadoop用户下)...

    Spark官方中文文档

    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询...

    基于Linux平台下的Hadoop和Spark集群搭建研究.pdf

    "基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建,旨在提高计算速率和数据性能。Hadoop是最流行的处理平台,主要解决了数据存储和分布式计算的问题,而Spark...

    spark本地开发模式配置

    在自己的机器上配置spark的本地开发模式,可以用来测试spark代码是否正确,如果没问题,可以提交到spark集群上去运行,免去每次都要打包放到集群上去测试的麻烦。因为在网络上没找到合适的资源可以快速构建,所以就...

    spark笔记整理文档

    Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理系统。与Hadoop MapReduce相比,Spark通过内存计算显著提升了迭代算法的执行效率,同时支持多种数据处理模型,包括...

    windows环境运行spark部署说明文档

    在Windows环境中部署Spark运行环境是一项复杂但必要的任务,特别是对于那些在本地开发和测试Spark应用的开发者来说。本文将详细阐述如何在Windows上配置Spark,包括IntelliJ IDEA的使用,Spark 1.6的安装,Scala ...

    spark2.x集群搭建

    接下来,从Apache官方网站下载Spark 2.x的安装包,例如`spark-2.1.0-bin-hadoop2.6.tgz`。然后通过SSH将文件上传到Linux服务器,并将其解压到指定目录,如`/usr/local/app`。注意,Spark的根目录下有一个名为RELEASE...

    Spark官方文档中文翻译

    这份“Spark官方文档中文翻译”涵盖了Spark的核心概念、架构、使用方法以及API,对于理解并应用Spark进行大规模数据处理非常有帮助。 **1. Spark核心概念** Spark基于DAG(有向无环图)执行模型,它将计算任务分解...

    spark项目代码以及数据

    Spark可以运行在本地模式、集群模式(如YARN、Mesos或独立部署)以及云环境。选择合适的部署模式取决于项目需求,如资源可用性、扩展性和运维复杂性。 七、性能优化 Spark项目中通常需要关注性能优化,包括: - ...

    kafka+spark streaming开发文档

    本文档主要讲解了使用Kafka和Spark Streaming进行实时数据处理的开发文档,涵盖了Kafka集群的搭建、Spark Streaming的配置和开发等内容。 一、Kafka集群搭建 首先,需要安装Kafka单机和集群环境配置。安装环境包括...

    spark官方文档中文版

    总的来说,"Spark 官方文档中文版"会详细介绍如何配置和使用 Spark,包括安装、配置集群、编写应用程序、优化性能等方面的内容。它还会深入讲解 Spark 的高级特性,如广播变量、累加器、持久化策略等。对于希望深入...

    spark2官方中文文档

    《Spark2.0官方中文文档》是一份详细解读Apache Spark 2.0核心特性和功能的资料,旨在帮助用户深入理解和应用这一强大的大数据处理框架。Spark以其高效、易用和可扩展性在大数据领域占据重要地位,而Spark 2.0版本更...

    spark1.4的本地模式编程练习(2)附加代码

    本地模式是Spark的一种运行模式,它允许开发者在单个节点上运行Spark作业,无需集群环境,这极大地简化了开发和调试流程。 在这个练习中,我们有两个主要的代码文件:"SparkTest1"和"tutorial"。这些文件很可能是...

    spark-2.1.0 api文档

    6. **Spark R**:Spark R是Spark与R语言的集成,允许用户在Spark集群上运行R代码,利用Spark的并行计算能力进行大规模数据分析。 7. **Spark JDBC/ODBC**:这些接口使得Spark能够连接到各种关系型数据库和其他数据...

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    - 初始化Spark集群,包括启动Spark Master和Worker节点。 4. **Hive**:Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。它适合做离线分析,不适用于实时查询...

    Spark2.4.3集群部署

    Spark2.4.3集群部署是将Spark集群安装到多台机器上,以达到分布式计算和大规模数据处理的目的。下面是Spark2.4.3集群部署的详细知识点: 1. Master 节点配置 Master 节点是Spark集群的中心节点,负责协调和管理整个...

    Spark集群环境搭建

    在本例中,我们将搭建一个3节点的Spark集群,其中每个节点上都部署了Worker服务,同时为了保证高可用,我们还在hadoop001、hadoop002和hadoop003上分别部署了Master服务,Master服务由ZooKeeper集群进行协调管理,...

Global site tag (gtag.js) - Google Analytics