Spark的学习1-编译 - Fisher小屋 - ITeye博客

`

Djava.sohu.com

浏览: 64977 次
性别:
来自: 上海

最近访客更多访客>>

tyzqqq

erocx

scaler

zcpwillam

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一说书先生：快学Spark 2.0(新特性、含真实项目、纯Scala语言开 ...
Spark学习-关于Spark的开发语言Scala
llhdf：现在我们发布了 windows 64 位系统下sparkid ...
Spark的学习2-IDE
nuan268：你好，不知能否给一份代码参考下呢，邮箱nuan268@foxm ...
我的Js日志组件 logger for js (log4js)- (2009-10-30)
hbbbs： Djava.sohu.com 写道回9 楼 hbbbs:比co ...
我的Js日志组件 logger for js (log4js)- (2009-10-30)
Djava.sohu.com：回9 楼 hbbbs:比console.log方便的地方包括： ...
我的Js日志组件 logger for js (log4js)- (2009-10-30)

Spark的学习1-编译

博客分类：

BigData
学习
Spark

Spark maven cgywin PermGen space

阅读更多

这两天开始学Spark, 因此把相应的步骤记录下来.

下载最新的Spark代码,使用maven进行编译在win8(64位）上进行编译：
（参考https://spark.apache.org/docs/latest/building-with-maven.html)

现在Spark主要以Standalone方式或Spark on yarn方式运行，因此在使用maven构建时，使用以下参数
mvn -Pyarn -Phadoop-2.3 -Dhadoop.version=2.3.0 -DskipTests clean package

问题1: unzip not found
解决方案：安装cygwin和unzip包, 并设置unzip.exe的搜索路径(因为unzip.exe还依赖一些cygwin的文件，所以只接拷贝到unzip.exe到系统文件的方法还是有一点问题的)

可以使用set PATH=%PATH%;d:/cygwin64/bin (用实际路径进行替换),设置完成可以输入unzip，看系统是否能找得到这个exe文件。

问题2: 出现PermGen space -> [Help 1]
解决方案: 那你没有设置MAVEN_OPTS的值，应该在运行mvn命令前执行这一句：
set MAVEN_OPTS=-Xmx2g -Xms1g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m

这和在Linux上是有一点点的区别的，不要用" "把 -Xmx2g 等包起来，否则会出现如"Invalid options ...."的错误

问题3: You have 1 Scalastyle violation(s) -编译ML Library时
解决方案: 找到 mllib\src\main\scala\org\apache\spark\mllib\optimization\Gradient.scala文件，把带有// Our loss function的两行移除即可。

整个编译过程还是比较慢的，解决了上面的几个问题，你可以专心做点别的，等它慢慢地编译完成吧。

分享到：

Spark的学习2-IDE | 大数据处理-序

2014-10-13 23:40
浏览 2282
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar: 1. Spark核心概念： - RDD（弹性分布式数据集）：Spark的基础数据结构，是不可变、分区的数据集合，可以在集群中并行操作。 - DataFrame：Spark SQL引入的数据模型，它是基于表和列的抽象，提供了更高级别的抽象和...

spark-3.1.3-bin-hadoop3.2.tgz: 1. 性能优化：每个版本的Spark都会进行性能调优，以提高数据处理速度和资源利用率。3.1.3可能会有针对特定工作负载的优化，例如SQL查询或机器学习算法。 2. SQL增强：Spark SQL支持多种数据源，包括Hive、Parquet、...

spark-2.4.7-bin-without-hadoop: Spark 2.4.7 是 Apache Spark 的一个重要版本，它是一个流行的开源大数据处理框架，被广泛应用于大规模数据处理、机器学习以及实时流处理等领域。这次我们讨论的是"spark-2.4.7-bin-without-hadoop"，这是一个不包含...

spark-3.0.0-bin-hadoop2.7.tgz: Spark-3.0.0-bin-hadoop2.7.tgz 是Spark 3.0.0版本的预编译二进制包，其中包含了针对Hadoop 2.7版本的兼容性构建。这个版本的发布对于数据科学家和大数据工程师来说至关重要，因为它提供了许多性能优化和新功能。 1...

spark-2.3.0-bin-hadoop2.7版本.zip: 4. **组件丰富**：Spark包含多个模块，如Spark Core、Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图计算）。这些组件协同工作，覆盖了批处理、交互式查询、实时流处理、机器学习和图计算等多种应用...

spark-2.3.4-bin-hadoop2.7.tgz: 在本案例中，我们关注的是Spark的2.3.4版本，它预编译为与Hadoop 2.7兼容的版本，打包成"spark-2.3.4-bin-hadoop2.7.tgz"的压缩文件。这个压缩包包含了运行Spark所需的所有组件，包括Java库、Python库（pyspark）、...

spark-assembly-1.5.2-hadoop2.6.0jar包: 1. Spark Core：Spark的基础模块，提供了分布式任务调度、内存管理、错误恢复和与其他存储系统交互的能力。 2. Spark SQL：Spark的SQL和数据框接口，允许用户使用SQL或DataFrame API来处理结构化数据，同时兼容Hive...

spark-3.1.2-bin-hadoop3.2.tgz: 1. **Spark Core**：Spark的基础框架，提供了分布式任务调度和基本的数据存储。 2. **Spark SQL**：用于结构化数据处理，支持SQL查询和DataFrame API。 3. **Spark Streaming**：处理实时数据流，通过微批处理实现低...

spark-2.1.1-bin-hadoop2.7.tgz.7z: 这个特定的压缩包"spark-2.1.1-bin-hadoop2.7.tgz.7z"是为Linux系统设计的，它包含了Spark 2.1.1版本，并且已经与Hadoop 2.7.2版本进行了预编译集成，这意味着它可以无缝地与Hadoop生态系统交互。 Hadoop 2.7.2是一...

spark-2.0.0-bin-hadoop2.7.tgz.zip: "spark-2.0.0-bin-hadoop2.7.tgz.zip"这个文件是Spark 2.0.0预编译版本，包含了针对Hadoop 2.7的依赖。首先，你需要解压缩这个zip文件，得到"spark-2.0.0-bin-hadoop2.7.tgz"，然后再进行一次解压缩。解压后，你会...

spark-1.4.0-bin-hadoop1.tgz: 这个特定的压缩包“spark-1.4.0-bin-hadoop1.tgz”包含了Spark 1.4.0版本，并预编译了针对Hadoop 1的依赖，这意味着它可以直接在运行Hadoop 1的集群上使用。 Hadoop是Apache另一个关键项目，是一个分布式文件系统...

spark-2.4.0-bin-hadoop2.6.tgz: 1. **Spark核心概念**：Spark的核心组件是弹性分布式数据集（Resilient Distributed Datasets, RDD），这是一种容错的、不可变的数据集合，可以在集群中的多个节点上并行操作。此外，Spark还提供了DataFrame和...

spark-1.6.3-bin-hadoop2.6.tgz: 总的来说，"spark-1.6.3-bin-hadoop2.6.tgz"这个压缩包包含了一个完整的Spark 1.6.3发行版，预编译为与Hadoop 2.6兼容。安装这个版本的Spark，用户可以利用其强大的数据处理能力和与Hadoop的紧密集成，进行大规模...

spark--bin-hadoop3-without-hive.tgz: 本压缩包“spark--bin-hadoop3-without-hive.tgz”提供了Spark二进制版本，针对Hadoop 3.1.3进行了编译和打包，这意味着它已经与Hadoop 3.x兼容，但不包含Hive组件。在CentOS 8操作系统上，这个版本的Spark已经被...

spark-2.3.1-bin-hadoop2.9-without-hive.tgz: Spark的核心组件包括：Spark Core、Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图处理库）。 Spark 2.3.1的亮点包括： 1. **DataFrame和Dataset API增强**：DataFrame和Dataset API是Spark SQL的一...

2.Spark编译与部署（下）--Spark编译安装.pdf: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署（上）--基础环境搭建.pdf 2.Spark编译与部署（下）--Spark编译安装.pdf 2.Spark编译与部署（中）--Hadoop编译安装.pdf 3.Spark编程模型（上）--概念及SparkShell实战....

spark-2.3.3-bin-hadoop2.6.tgz: 1. `bin/`：包含各种命令行工具，如`spark-shell`用于启动Spark的交互式 Scala shell，`pyspark`用于Python环境，以及`spark-submit`用于提交Spark应用到集群。 2. `conf/`：存放配置文件，如`spark-defaults.conf`...

spark-2.4.0-bin-hadoop2.7.zip: 1. **Spark核心概念**： Spark的核心是弹性分布式数据集（Resilient Distributed Datasets, RDDs），它是对大规模数据的抽象，具有容错性和并行计算能力。RDDs可以在集群中的节点间分区，并支持各种操作，如转换和...

spark-1.6.1-bin-hadoop2.6.zip （缺spark-examples-1.6.1-hadoop2.6.0.jar）: Spark-1.6.1-bin-hadoop2.6.zip 是一个包含Spark 1.6.1版本的预编译二进制包，专为与Hadoop 2.6版本兼容而构建。在大数据领域，Spark以其高效内存计算和对多种数据处理任务的支持而受到广泛欢迎，如批处理、交互式...

spark-1.6.2-bin-hadoop2.6.gz: 1. Spark Core：提供基本的调度、内存管理、故障恢复和网络通信功能。 2. Spark SQL：支持SQL查询和DataFrame API，使传统SQL开发者可以方便地使用Spark。 3. Spark Streaming：处理实时数据流，通过微批处理实现低...

Global site tag (gtag.js) - Google Analytics