修改并编译spark源码 - - ITeye博客

`

字母哥

浏览: 70867 次
性别:
来自: 北京

最近访客更多访客>>

shansheng

iteakey

chiqiansunny

yanzuo2046

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

onlinetomcat：创建java工程这个jar可以和冲突的jar使用吗
elasticsearch与spark，hbase等jar包冲突导致报错问题
字母哥： hae 写道你的输入文件是从哪里来的，格式是什么样的。已经上传 ...
hadoop处理手机流量小例子
字母哥： lvwenwen 写道文件格式是什么样。已经上传
hadoop处理手机流量小例子
lvwenwen：文件格式是什么样。
hadoop处理手机流量小例子
hae：你的输入文件是从哪里来的，格式是什么样的。
hadoop处理手机流量小例子

修改并编译spark源码

博客分类：

spark

阅读更多

这里说一下spark源码的编译，可以修改一些源码，进行编译，这里我们修改一下spark-shell启动时输出消息的代码，这地方不用多说，使用 idea导入spark官网下载的spark1.6源码，然后修改，回到spark源码解压目录，这里首先配置maven，jdk等环境变量。

./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipTests clean package

先执行上面的命令，会下载各种依赖jar和pom什么的，此过程比较长，大约1小时左右。成功后，再执行下面的命令

./make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Dhadoop.version=2.6.1 -Phive -Phive-thriftserver -Pyarn

执行完成后，我们在spark源码目录会发现多个一个压缩文件

spark-1.6.3-bin-custom-spark.tgz

这个压缩包就可以用来安装spark了，解压，我们在bin目录执行spark-shell命令，结果如下，我们发现修改后的代码编译有效了。

0
顶

0
踩

分享到：

spark参数设置 | scala调用api操作elasticsearch时long类 ...

2017-08-09 10:11
浏览 1282
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark 源码编译完整教程（maven编译+sbt编译+编译工具包+操作步骤笔记+依赖包下载镜像设置）: 自己学习并应用Spark一段时间后，由于需要改源代码，就研究了下怎么编译源码，成功编译后，记录下了编译的步骤和遇到的问题，例如编译过程中，下载大量的依赖包，默认从国外下载，非常慢，可能要编译好几个小时，...

hive3.x编译spark3.x包: 标题“hive3.x编译spark3.x包”表明我们要讨论的是关于如何在Hive 3.x版本上编译与之兼容的Spark 3.x版本的二进制包。这个过程通常涉及到以下步骤： 1. **环境准备**：首先确保你已经安装了Java开发环境（JDK），...

spark源码编译: jdk 1.7以上哦。直接使用eclipse就可以导入了,ant编译之后，就直接可以运行。具体情况我博客 http://blog.csdn.net/dao2012/article/details/52585152

spark源码下载安装启动: spark源码下载安装启动,包括遇到的问题，下载地址，.编译spark源码

spark编译源码过程: 对于开发者而言，理解Spark的内部实现机制以及如何编译Spark源码是提高工作效率、进行定制化开发的关键。本文将详细介绍如何针对Spark 2.1.0版本进行源码编阅及编译修改的过程，旨在帮助读者掌握快速修改Spark源码的...

Spark源码剖析: 《Spark源码剖析》PDF 文件很可能会深入到这些技术细节，包括类结构、算法实现以及关键代码的解析，帮助读者更好地理解和优化 Spark 应用。通过深入学习 Spark 源码，开发者可以更好地掌握 Spark 内部工作原理，从而...

Spark源码编译: 通过上述步骤，我们可以成功地编译Spark源码。这个过程不仅能够帮助我们深入了解Spark内部机制，还能够在遇到特定问题时快速定位并解决问题。此外，对于那些希望参与到Spark开源社区的开发者来说，源码编译也是必不...

Hive3.1.2编译源码: 使用hive3.1.2和spark...所以，如果想要使用高版本的hive和hadoop，我们要重新编译hive，兼容spark3.0.0。除了兼容spark3.0.0外，还将hive3.1.2的guava的版本进行了提升，和hadoop3.x保持一致，以便兼容hadoop3.1.3。

Spark源码包（编译完成）: **Spark源码结构与编译** Spark的源码组织结构主要包含以下几个部分： 1. `core`：Spark的基础功能，包括RDD、调度、内存管理和持久化等。 2. `sql`：Spark SQL相关代码，包括DataFrame和Dataset API。 3. `...

spark1.3.1源码下载: 源码下载是深入理解Spark内部机制、进行定制化开发或优化性能的基础步骤。 Spark的核心组件包括： 1. **Spark Core**：这是Spark的基础，提供分布式任务调度、内存管理以及错误恢复机制。 2. **Spark SQL**：将SQL...

Spark-2.4.5官网下载源码包: 7. `build/`：构建脚本和配置文件，如`build.gradle`，用于编译Spark源码。 8. `README.md`：项目简介和指南，帮助用户快速了解Spark和如何使用源码。 9. `LICENSE`：Spark的开源许可证，遵循Apache 2.0协议。 10. `...

编译spark1.6: 总之，编译Spark 1.6需要一定的技术背景和耐心，但通过这个过程，你可以更好地理解和掌控Spark的运行机制，并为自己的应用定制特定的特性。此外，如果你打算对Spark进行贡献，理解其源码和编译流程是非常必要的。

spark的源码包.zip: 通过对Spark源码的学习，我们可以深入了解这些概念的实现细节，优化性能，或者根据需求定制功能。例如，理解如何调度任务、优化内存使用，或者改进shuffle过程以减少数据传输和提高效率。此外，熟悉源码还可以帮助...

spark-2.3.1源码包: Spark是Apache软件基金会下的一个大数据处理框架，以其高效、易用和可扩展性著称。Spark 2.3.1是其重要的版本之一，提供了...在大数据领域，深入理解并掌握Spark源码的编译和部署对于提升开发和运维效率具有重大意义。

Hive on Spark整合过程中，需要修改的hive源码文件: 在Hive与Spark整合的过程中，涉及的源码修改是一项关键任务。这主要是因为Hive默认使用的执行引擎是MapReduce，而Spark作为一种新的大数据处理框架，其运行机制与MapReduce有所不同。因此，为了让Hive能够更好地利用...

IM spark源代码部署及编译: 由于MyEclipse已经创建了一个空的src文件夹，需要将Spark源码包中的src文件夹覆盖掉它。项目此时会出现错误（大红叉），这时需要将项目的源代码路径设置为包含复制进来的src文件夹。 3. 解决项目错误：移除项目中...

spark源码包: 2. **DataFrame**：DataFrame是Spark SQL的基础，它是一个二维表格结构，可以视为列式存储的数据集，支持多种数据源，并提供了一种统一的数据操作接口。DataFrame是RDD的优化版，因为它利用了编译时类型检查和代码...

spark2.4.7兼容haddoop 3.1.4 和hive 3.1.2修改spark源码和jar: 1. 在完成源码修改后，使用Maven或SBT等构建工具重新编译Spark项目。 2. 调整`pom.xml`或`build.sbt`文件中的依赖项，确保它们与Hadoop 3.1.4和Hive 3.1.2版本相匹配。 3. 运行构建命令，生成新的Spark jar文件。 ...

Global site tag (gtag.js) - Google Analytics