本地开发spark代码上传spark集群服务并运行（基于spark官网文档） - stark_summer - ITeye博客

`

Stark_Summer

浏览: 727515 次
性别:
来自: 大连

最近访客更多访客>>

loginboot

街头诗人

ahww520

sz_jack

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lixuanbin： iteye已经快要tj了吧。。
iteye为什么不支持markdown?
haorengoodman： Tachyon 能在做数据分类吗？例如我有一坨hdfs文件，将 ...
tachyon与hdfs,以及spark整合
lee3836：求源码，大牛
clover分布式任务调度系统
cfan37： ...
sparksql与hive整合
greemranqq： 9.9 送上，希望博客长久~。~
【【【【【#####>>>>>【关于我】【您·的·支·持·是·我·最·大·的·动·力】<<<<<#####】】】】】

本地开发spark代码上传spark集群服务并运行（基于spark官网文档）

博客分类：

spark

spark hadoop idea scala hdfs

阅读更多

打开IDEA 在src下的main下的scala下右击创建一个scala类名字为SimpleApp ,内容如下

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

打包文件：

File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices

点击Output Layout 看看是否没有第三方jar包，因为你使用spark集群环境，所以你不需要第三方jar包

重新build：

Build-->>Build Artifcat ..--->>build 或者rebuild

执行后就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar

上传到spark集群服务器的 spark_home下的myApp下

上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中

提交spark任务：

./bin/spark-submit --class "SimpleApp" --master local[4] myApp/study-scala.jar

执行结果为a:60,b:29

0
顶

4
踩

分享到：

命令行方式启动jetty-runner.jar 容器 | Linux下查看进程和线程

2015-01-08 18:50
浏览 5684
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop及Spark集群搭建文档: 本文将深入探讨如何搭建Hadoop集群，并在此基础上配置YARN资源管理器，以及如何部署Spark集群，同时也会涉及到Spark的Python编程指南。首先，让我们了解Hadoop。Hadoop是一个开源框架，主要用于分布式存储和计算，...

scala开发spark代码: 总结来说，这个压缩包提供了Scala开发Spark应用程序的实践代码，涵盖了Spark Core的基本操作、Spark SQL的结构化查询、Spark Streaming的实时处理，以及Spark RDD的使用。通过深入研究这些代码，你可以掌握Spark的...

Spark开发指导文档: 5. 集群部署：可以将Spark应用提交到YARN、Mesos或独立Spark集群运行。五、优化技巧 1. 内存管理：合理设置executor内存、driver内存，避免溢出，使用Tachyon或Alluxio作为缓存系统提升速度。 2. 广播变量和累加器...

Spark集群及开发环境搭建（完整版）: ### Spark集群及开发环境搭建（完整版） #### 一、软件及下载本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括： - **VirtualBox-5.1**：虚拟机软件，用于安装CentOS操作...

Spark官方中文文档: Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询...

spark 分布式集群搭建: Local 模式是一种简单的本地运行模式，适用于开发测试环境。通过以下命令启动： ```bash ./bin/run-example org.apache.spark.examples.SparkPi local ``` 在 Local 模式下，LocalBackend 会响应 Scheduler 的请求，...

spark集群安装部署与初步开发: ### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**：Spark是一款基于内存计算的大数据并行计算框架，旨在提供高效的数据处理能力。 - **特性**： - **内存计算**：利用内存提高数据处理...

基于Linux平台下的Hadoop和Spark集群搭建研究.pdf: "基于Linux平台下的Hadoop和Spark集群搭建研究" 本文主要研究了基于Linux平台下的Hadoop和Spark集群搭建，旨在提高计算速率和数据性能。Hadoop是最流行的处理平台，主要解决了数据存储和分布式计算的问题，而Spark...

Spark官方文档中文翻译: 这份“Spark官方文档中文翻译”涵盖了Spark的核心概念、架构、使用方法以及API，对于理解并应用Spark进行大规模数据处理非常有帮助。 **1. Spark核心概念** Spark基于DAG（有向无环图）执行模型，它将计算任务分解...

spark笔记整理文档: Spark最初由加州大学伯克利分校AMPLab开发，其设计理念是提供一个快速、通用且可扩展的大数据处理系统。与Hadoop MapReduce相比，Spark通过内存计算显著提升了迭代算法的执行效率，同时支持多种数据处理模型，包括...

spark-集群与大数据处理: Spark是Apache软件基金会旗下的开源大数据处理框架，由加州大学伯克利分校的AMP实验室开发，是基于内存计算的大数据并行处理系统。它提供了高层次的APIs，比如Java、Scala、Python、R等，用于数据挖掘、机器学习、...

windows环境运行spark部署说明文档: 在Windows环境中部署Spark运行环境是一项复杂但必要的任务，特别是对于那些在本地开发和测试Spark应用的开发者来说。本文将详细阐述如何在Windows上配置Spark，包括IntelliJ IDEA的使用，Spark 1.6的安装，Scala ...

spark2.x集群搭建: 接下来，从Apache官方网站下载Spark 2.x的安装包，例如`spark-2.1.0-bin-hadoop2.6.tgz`。然后通过SSH将文件上传到Linux服务器，并将其解压到指定目录，如`/usr/local/app`。注意，Spark的根目录下有一个名为RELEASE...

Intellij IDEA连接Spark集群: 本文主要介绍如何在 IntelliJ IDEA 中配置并连接到 Apache Spark 集群，以便进行 Spark 应用程序的开发。 #### 二、准备工作在开始配置之前，请确保你已经安装了以下软件： - **Java**：Spark 应用基于 Java 平台...

spark项目代码以及数据: Spark可以运行在本地模式、集群模式（如YARN、Mesos或独立部署）以及云环境。选择合适的部署模式取决于项目需求，如资源可用性、扩展性和运维复杂性。七、性能优化 Spark项目中通常需要关注性能优化，包括： - ...

Spark开发及本地环境搭建指南: ### Spark开发及本地环境搭建指南 #### 构建本机上的Spark开发环境在构建Spark开发环境时，首先需要确保你的计算机上安装了必要...此外，还可以通过阅读官方文档、参与社区讨论等方式不断提升自己的Spark开发技能。

spark本地开发模式配置: 在自己的机器上配置spark的本地开发模式，可以用来测试spark代码是否正确，如果没问题，可以提交到spark集群上去运行，免去每次都要打包放到集群上去测试的麻烦。因为在网络上没找到合适的资源可以快速构建，所以就...

基于Spark实现的集群分布式计算框架，支持地理分布式数据的高效处理+源代码+文档说明: 基于Spark实现的集群分布式计算框架，支持地理分布式数据的高效处理+源代码+文档说明，代码注释拉满，满分大作业资源，新手也可看懂，期末大作业、课程设计、高分必看，下载下来，简单部署，就可以使用。该项目可以...

spark安装包+spark实验安装软件: - **下载Spark**: 首先，从Apache官方网站下载适合你的操作系统的Spark版本，如本压缩包中的"spark-3.4.0-bin-without-hadoop"。 - **解压并配置环境变量**: 解压缩后，将Spark的安装路径添加到系统环境变量`SPARK_...

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优: 本实战指南基于Cloudera Distribution Including Apache Hadoop (CDH) 6.3.0 版本，并采用Apache Spark 2.4.0作为计算引擎。集群配置包含5个NodeManager节点，每个节点配备62.8GB内存（共64GB）、32核CPU。这样的...

Global site tag (gtag.js) - Google Analytics