这两天开始学Spark, 因此把相应的步骤记录下来.
下载最新的Spark代码,使用maven进行编译在win8(64位)上进行编译:
(参考https://spark.apache.org/docs/latest/building-with-maven.html)
现在Spark主要以Standalone方式或Spark on yarn方式运行,因此在使用maven构建时,使用以下参数
mvn -Pyarn -Phadoop-2.3 -Dhadoop.version=2.3.0 -DskipTests clean package
问题1: unzip not found
解决方案: 安装cygwin和unzip包, 并设置unzip.exe的搜索路径(因为unzip.exe还依赖一些cygwin的文件,所以只接拷贝到unzip.exe到系统文件的方法还是有一点问题的)
可以使用set PATH=%PATH%;d:/cygwin64/bin (用实际路径进行替换),设置完成可以输入unzip,看系统是否能找得到这个exe文件。
问题2: 出现PermGen space -> [Help 1]
解决方案: 那你没有设置MAVEN_OPTS的值,应该在运行mvn命令前执行这一句:
set MAVEN_OPTS=-Xmx2g -Xms1g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m
这和在Linux上是有一点点的区别的,不要用" "把 -Xmx2g 等包起来,否则会出现如"Invalid options ...."的错误
问题3: You have 1 Scalastyle violation(s) -编译ML Library时
解决方案: 找到 mllib\src\main\scala\org\apache\spark\mllib\optimization\Gradient.scala文件,把带有// Our loss function的两行移除即可。
整个编译过程还是比较慢的,解决了上面的几个问题,你可以专心做点别的,等它慢慢地编译完成吧。
分享到:
相关推荐
1. Spark核心概念: - RDD(弹性分布式数据集):Spark的基础数据结构,是不可变、分区的数据集合,可以在集群中并行操作。 - DataFrame:Spark SQL引入的数据模型,它是基于表和列的抽象,提供了更高级别的抽象和...
1. 性能优化:每个版本的Spark都会进行性能调优,以提高数据处理速度和资源利用率。3.1.3可能会有针对特定工作负载的优化,例如SQL查询或机器学习算法。 2. SQL增强:Spark SQL支持多种数据源,包括Hive、Parquet、...
Spark-3.0.0-bin-hadoop2.7.tgz 是Spark 3.0.0版本的预编译二进制包,其中包含了针对Hadoop 2.7版本的兼容性构建。这个版本的发布对于数据科学家和大数据工程师来说至关重要,因为它提供了许多性能优化和新功能。 1...
4. **组件丰富**:Spark包含多个模块,如Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算)。这些组件协同工作,覆盖了批处理、交互式查询、实时流处理、机器学习和图计算等多种应用...
在本案例中,我们关注的是Spark的2.3.4版本,它预编译为与Hadoop 2.7兼容的版本,打包成"spark-2.3.4-bin-hadoop2.7.tgz"的压缩文件。这个压缩包包含了运行Spark所需的所有组件,包括Java库、Python库(pyspark)、...
1. Spark Core:Spark的基础模块,提供了分布式任务调度、内存管理、错误恢复和与其他存储系统交互的能力。 2. Spark SQL:Spark的SQL和数据框接口,允许用户使用SQL或DataFrame API来处理结构化数据,同时兼容Hive...
1. **Spark Core**:Spark的基础框架,提供了分布式任务调度和基本的数据存储。 2. **Spark SQL**:用于结构化数据处理,支持SQL查询和DataFrame API。 3. **Spark Streaming**:处理实时数据流,通过微批处理实现低...
Spark 2.4.7 是 Apache Spark 的一个重要版本,它是一个流行的开源大数据处理框架,被广泛应用于大规模数据处理、机器学习以及实时流处理等领域。这次我们讨论的是"spark-2.4.7-bin-without-hadoop",这是一个不包含...
这个特定的压缩包"spark-2.1.1-bin-hadoop2.7.tgz.7z"是为Linux系统设计的,它包含了Spark 2.1.1版本,并且已经与Hadoop 2.7.2版本进行了预编译集成,这意味着它可以无缝地与Hadoop生态系统交互。 Hadoop 2.7.2是一...
这个特定的压缩包“spark-1.4.0-bin-hadoop1.tgz”包含了Spark 1.4.0版本,并预编译了针对Hadoop 1的依赖,这意味着它可以直接在运行Hadoop 1的集群上使用。 Hadoop是Apache另一个关键项目,是一个分布式文件系统...
1. **Spark核心概念**:Spark的核心组件是弹性分布式数据集(Resilient Distributed Datasets, RDD),这是一种容错的、不可变的数据集合,可以在集群中的多个节点上并行操作。此外,Spark还提供了DataFrame和...
"spark-2.0.0-bin-hadoop2.7.tgz.zip"这个文件是Spark 2.0.0预编译版本,包含了针对Hadoop 2.7的依赖。首先,你需要解压缩这个zip文件,得到"spark-2.0.0-bin-hadoop2.7.tgz",然后再进行一次解压缩。解压后,你会...
总的来说,"spark-1.6.3-bin-hadoop2.6.tgz"这个压缩包包含了一个完整的Spark 1.6.3发行版,预编译为与Hadoop 2.6兼容。安装这个版本的Spark,用户可以利用其强大的数据处理能力和与Hadoop的紧密集成,进行大规模...
Spark的核心组件包括:Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图处理库)。 Spark 2.3.1的亮点包括: 1. **DataFrame和Dataset API增强**:DataFrame和Dataset API是Spark SQL的一...
本压缩包“spark--bin-hadoop3-without-hive.tgz”提供了Spark二进制版本,针对Hadoop 3.1.3进行了编译和打包,这意味着它已经与Hadoop 3.x兼容,但不包含Hive组件。在CentOS 8操作系统上,这个版本的Spark已经被...
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战....
1. `bin/`:包含各种命令行工具,如`spark-shell`用于启动Spark的交互式 Scala shell,`pyspark`用于Python环境,以及`spark-submit`用于提交Spark应用到集群。 2. `conf/`:存放配置文件,如`spark-defaults.conf`...
1. **Spark核心概念**: Spark的核心是弹性分布式数据集(Resilient Distributed Datasets, RDDs),它是对大规模数据的抽象,具有容错性和并行计算能力。RDDs可以在集群中的节点间分区,并支持各种操作,如转换和...
Spark-1.6.1-bin-hadoop2.6.zip 是一个包含Spark 1.6.1版本的预编译二进制包,专为与Hadoop 2.6版本兼容而构建。在大数据领域,Spark以其高效内存计算和对多种数据处理任务的支持而受到广泛欢迎,如批处理、交互式...
1. Spark Core:提供基本的调度、内存管理、故障恢复和网络通信功能。 2. Spark SQL:支持SQL查询和DataFrame API,使传统SQL开发者可以方便地使用Spark。 3. Spark Streaming:处理实时数据流,通过微批处理实现低...