【Spark109】Windows上运行spark-shell - bit1129的博客 - ITeye博客

`

bit1129

浏览: 1075296 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jchubby：关于第一个reduceByKey对应的cache，shuffl ...
【Spark三十七】Spark Cache机制
bo_hai：看了你的文章，updateStateByKey 这个方式的使用 ...
【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
bo_hai：棒极啦，解决了我的问题。
【Spark七十二】Spark的日志配置
tivan：你好，这个代码生成主要在，那个地方使用。
【Spark105】Spark SQL动态代码生成一
zxsz4085：看楼主这么厉害的样子，请问楼主如何知道类库的版本呢？比如g++ ...
【Thrift一】Thrift编译安装

【Spark109】Windows上运行spark-shell

博客分类：

Spark

阅读更多

如何在Windows上运行spark-shell

1. 下载winutils.exe，加入放置到d:/software/Hadoop/bin/winutils.exe目录下，注意，winutils.exe文件的上级目录一定是bin

2. 开启一个windows命令行窗口，在d:/software/Hadoop/bin目录下执行winutils.exe chmod 777 D:\tmp\hive

3. 打开一个windows命令行窗口，cd到解压的Spark的目录下，比如d:/software/spark-1.6.2/bin/执行如下命令

set HADOOP_HOME=d:/software/Hadoop

然后执行spark-shell，此时spark-shell正常启动，进入scala>命令行

在scala>提示符下输入

sc.parallelize(List(1,2,3)).reduce(_+_)

会提交spark任务，得到结果6

分享到：

xyz | 【Linux八】查看某个进程的线程数

2016-10-13 18:13
浏览 3055
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-shell启动: 本文档详细的介绍了spark的shell启动命令，具体细节等要求

spark--bin-hadoop3-without-hive.tgz: 在CentOS 8上运行Spark，你可能需要安装Java开发工具包（JDK），因为Spark依赖于Java运行。此外，还要确保系统满足Spark的其他依赖，例如Python（对于PySpark）和Scala（Spark的基础语言）。安装完成后，你可以通过`...

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar: Spark可以与Hadoop生态系统无缝集成，利用HDFS作为数据源，并且可以在YARN上运行。 4. 压缩包内容： - spark-3.1.2.tgz：这是一个tar归档文件，经过gzip压缩，通常包含源代码、文档、配置文件和编译后的二进制文件...

spark-2.4.0-bin-without-hadoop.tgz: 完成环境配置后，你可以启动 Spark 的各种服务，如 Master、Worker，或者直接运行 Spark Shell 进行测试。总的来说，Spark 2.4.0 是一个强大且功能丰富的数据处理框架，它的内存计算模型、SQL 支持、流处理和机器...

spark-2.1.0-bin-without-hadoop.tgz: 7. **Spark与Hadoop的关系**：虽然Spark可以独立于Hadoop运行，但在Hadoop集群上运行Spark可以充分利用Hadoop的数据存储和资源管理能力。此外，Hadoop的MapReduce和Spark可以并存，提供多样化的处理选择。 8. **...

2.Spark编译与部署（下）--Spark编译安装.pdf: 3.Spark编程模型（上）--概念及SparkShell实战.pdf 3.Spark编程模型（下）--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive（上）--Hive介绍及部署.pdf 5.Hive（下）--Hive实战.pdf 6.SparkSQL（上）--SparkSQL简介...

spark-2.2.1-bin-2.6.0-cdh5.14.2.tar.gz: 5. 可以通过`spark-shell`或`pyspark`启动交互式环境，或者编写Spark应用程序并使用`spark-submit`提交到集群上运行。在实际应用中，你可能还需要考虑Spark与CDH中其他组件的集成，例如Hive、Impala，以实现更高效...

spark-2.4.7-bin-hadoop2.7.tgz: 这确保了Spark作业可以在现有的Hadoop集群上运行，无需额外配置。 3. **性能优化**： - Spark的内存计算模型允许数据在内存中快速处理，避免了传统Hadoop MapReduce的磁盘I/O开销，显著提升了计算速度。 - **...

spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz: 而YARN模式则利用了CDH中的资源管理系统，使Spark作业能在更大的Hadoop集群上运行。若要部署在YARN上，需要配置Spark的conf目录中的相关配置文件，比如`spark-defaults.conf`和`yarn-site.xml`，以指定YARN的地址和...

7.SparkStreaming（上）--SparkStreaming原理介绍.pdf: 3.Spark编程模型（上）--概念及SparkShell实战.pdf 3.Spark编程模型（下）--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive（上）--Hive介绍及部署.pdf 5.Hive（下）--Hive实战.pdf 6.SparkSQL（上）--SparkSQL简介...

spark-3.2.0-bin-hadoop3-without-hive: 你可以通过解压这个压缩包，配置相应的环境变量，然后启动 Spark Shell 或者 Spark Submit 来运行你的应用程序。需要注意的是，对于没有 Hive 支持的 Spark，你可能需要使用其他方式来实现数据仓库的功能，比如使用 ...

8.SparkMLlib（下）--SparkMLlib实战.pdf: 3.Spark编程模型（上）--概念及SparkShell实战.pdf 3.Spark编程模型（下）--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive（上）--Hive介绍及部署.pdf 5.Hive（下）--Hive实战.pdf 6.SparkSQL（上）--SparkSQL简介...

spark-1.6.0-bin-hadoop2.6.tgz: - 如果需要运行在Hadoop YARN上，还需要配置`yarn-site.xml`和`core-site.xml`等相关Hadoop配置文件。 - 启动Spark相关服务，如Master和Worker节点。 **4. 使用Spark Shell** Spark提供了一个交互式的Shell，可以...

成功编译后的 spark-2.1.0-bin-2.6.0-cdh5.7.0: Spark SQL还与Hive兼容，可以读取和写入Hive表，这意味着你可以利用Spark的高性能处理能力来处理Hadoop集群上的大量数据。此外，Spark SQL还可以与多种数据源集成，如Parquet、JSON、CSV等，方便地导入和导出数据。 ...

spark-3.0.0-bin-hadoop3.2: 在Windows环境下，你可以通过修改配置文件，设置环境变量，并使用提供的启动脚本来运行Spark Shell、Spark Submit等工具，开始你的大数据处理之旅。为了充分利用Spark的功能，你需要了解如何配置Spark的运行环境，...

spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz: 解压后，用户可以使用这些文件在CDH5.7.0集群上部署和运行Spark应用。其中，"bin"目录下有Spark的可执行脚本，如`spark-submit`用于提交应用程序，`spark-shell`提供交互式Spark会话，`pyspark`则提供了Python接口。...

spark-2.4.8-bin-hadoop2.7.tgz: 在使用Spark时，你可以通过`spark-submit`命令提交应用程序，或者直接在Spark Shell中编写和运行代码。总的来说，Spark 2.4.8是一个强大且灵活的大数据处理框架，它通过其丰富的组件和优化的性能，为开发者提供了...

spark-2.2.2-bin-hadoop2.7.tgz: 1. `bin`：存放可执行脚本，如`spark-submit`用于提交Spark应用，`spark-shell`提供交互式Shell环境。 2. `conf`：配置文件夹，存放默认配置模板，如`spark-defaults.conf`，用户可以根据需求自定义配置。 3. `jars`...

spark-3.1.3-bin-hadoop3.2.tgz: 6. 开发者工具：Spark提供了一个强大的交互式命令行界面（Spark Shell）和一个Web UI，帮助开发者调试和监控作业。新版本可能会有更友好的API和工具更新。 7. 机器学习库（MLlib）：MLlib持续发展，3.1.3可能增加了...

spark-2.4.7-bin-hadoop2.6.tgz: 9. **YARN集成**：与Hadoop2.6的兼容意味着Spark可以运行在YARN之上，利用YARN的资源管理和调度功能。在解压`spark-2.4.7-bin-hadoop2.6.tgz`后，您会得到一个名为`spark-2.4.7-bin-hadoop2.6`的目录，其中包括...

Global site tag (gtag.js) - Google Analytics