spark安装笔记（ubuntu16） - LC - ITeye博客

`

cherishLC

浏览: 700607 次
性别:
来自: 北京

最近访客更多访客>>

jaybril

duanyilinelf

q343724746

半夏浮生

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jeffersonz：请问大神，这个插件记录下来的脚本为什么不能再Extendscr ...
PhotoShop - 记录PS的所有操作为JavaScript代码
cherishLC： Andy__Zou 写道cherishLC 写道Andy__Z ...
Eigen的编译选项；MKL的使用
Andy__Zou： cherishLC 写道Andy__Zou 写道cherish ...
Eigen的编译选项；MKL的使用
cherishLC： Andy__Zou 写道cherishLC 写道Andy__Z ...
Eigen的编译选项；MKL的使用
Andy__Zou： cherishLC 写道Andy__Zou 写道您好，您的工 ...
Eigen的编译选项；MKL的使用

spark安装笔记（ubuntu16）

博客分类：

spark

阅读更多

强烈推荐：
安装Hadoop及Spark(Ubuntu 16.04)：http://www.cnblogs.com/bovenson/p/5760856.html

管理页面：
hadoop：localhost:50070
yarn：localhost:8088
spark：localhost:8080

这里仅作为补充：

1、通过ln命令创建软连接
这样不会剔除所安装文件的版本信息，方便升级

ln -s hadoop-2.7.3/ hadoop

2、ssh免密码登陆

root用户下没问题。
普通用户没成功，尝试了多个教程（修改文件夹权限什么的）

3、教程
官网的就很不错：
http://spark.apache.org/docs/latest/quick-start.html

注意：由于我们集成了hadoop，文件必须先上传到hadoop的hdfs文件系统
hadoop文件命令参见：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html
着重注意 copyFromLocal命令

如果我们将README.md 上传到hadoop的根目录，则对应官网教程的创建RDD的命令为：

val lines=sc.textFile("/README.md")

4、打包为jar
安照官网的sbt教程来的，可以成功，但过程缓慢
sbt安装：http://www.scala-sbt.org/download.html

解压生成的jar包，里面也就是自己的几个.class文件而已（eclipse自动编译好的），就是普通的带main class的java 包，应该可以手动打包，，这部分没尝试

注意：官网教程的 spark-submit 那步，需要先启动spark服务（运行安装教程中启动spark的脚本）；另外我没指定master参数，不清楚上面教程的安装模式是什么

分享到：

zip 与 unzip相关命令 | xgboost 安装、绘图笔记

2016-10-12 12:03
浏览 797
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive on Spark实施笔记1: 操作系统应为Ubuntu 14.04，同时需要安装Maven和Scala（用于Spark的编译）。确保已设置HADOOP_HOME环境变量，因为Spark需要与Hadoop兼容。此外，由于编译过程中需要下载大量文件，需要保持网络连接畅通，并配置Maven...

docker-spark:用于在Ubuntu上运行Apache Spark的Dockerfile: Apache Spark是一个快速的通用集群计算系统。它提供Java，Scala和Python的高级API，以及支持常规执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括用于SQL和结构化数据的处理，机器学习，用于图形处理...

autoInstall.zip: 标签“大数据”、“apache spark”和“ubuntu”表明这个压缩包与大数据处理框架Apache Spark在Ubuntu系统上的自动化安装或配置有关。 Apache Spark是一个流行的开源大数据处理框架，它提供了快速、通用以及可扩展的...

cdh6.3.2 离线安装5个所需文件及安装小笔记: 在IT行业中，CDH（Cloudera Distribution Including Apache Hadoop）是Cloudera公司提供的一款开源大数据平台，它包含了多个Apache Hadoop生态系统组件，如HDFS、YARN、MapReduce等，以及Spark、HBase、Kafka等其他...

大数据环境搭建（java, hadoop, hbase, spark, miniconda, jupyte）: 【大数据环境搭建】在Ubuntu操作系统中构建大数据处理环境是一个复杂的过程，涉及到多个组件的安装与配置。本环境搭建主要包括以下几个核心部分：Java、Hadoop、HBase、Spark、Miniconda以及Jupyter。首先，Java是...

《大数据Spark数据处理及python数据结果可视化》学习笔记（另附大作业）: 笔记内容介绍：第一部分：虚拟机环境第二部分：大数据处理第三部分：数据结果可视化大作业内容介绍：主要课题：针对北京2013-2017五年内污染物浓度数据进行大数据处理以及结果可视化包括：数据清洗后的数据集...

sumobot-sparkcore:使用 sparkcore 运行相扑机器人: 这是关于如何设置相扑机器人以使用约翰尼五号运行 sparkcore 的版本的悬崖笔记版本。环境设置（仅限 Ubuntu）打开终端应用程序并安装节点，但首先确保删除其他版本，因为它们不适用于spark-cli 。 sudo apt-get...

读写HBase数据.pdf: 下面将详细介绍如何使用Spark及pyspark进行HBase数据的读写，以及HBase的安装配置。首先，要进行HBase的安装与配置。这通常包括以下几个步骤： 1. 将HBase安装包上传到服务器（如Ubuntu）上，并解压缩。将其移动...

ml-vm-notebook:机器学习虚拟机（由Vagrant提供）用于构建Spark Notebook应用程序: 该实例基于spark-base64 VM（在Ubuntu 18.04上已经提供了所有必需的软件包）。最重要的是，它配置并启动Jupyter Notebook进程，并作为HTTP服务导出到本地端口。它允许创建带有四个不同内核的笔记本： Python 3.6...

虚拟机zeppelin安装: 你可能选择使用像VirtualBox或VMware这样的虚拟机软件，然后在虚拟机上安装一个操作系统，比如Ubuntu Server或CentOS。确保你的虚拟机配置有足够的内存和CPU资源，因为Zeppelin可能需要运行大数据处理任务。接下来...

AMPcamp5:在IPython笔记本中完成AMP Camp 5动手练习: 我选择在Ubuntu 14.04 LTS上使用Anaconda python发行版2.2.0和Spark 1.4.0。这篇提供了有关如何在本地安装Spark的说明。一切设置完成后，只需键入 IPYTHON_OPTS =“ notebook” pyspark 从USB文件内容的根目录...

大数据Linux基础学习笔记: 在Linux中，常用包管理器如apt（Ubuntu/Debian）和yum（CentOS/RHEL）来安装、更新和卸载软件。理解这些工具的使用方法，能帮助快速部署大数据相关软件。七、大数据环境搭建 Linux是Hadoop、Spark、Hive、HBase等...

server-python：用于pythonservermysql ip信息检索的ETL脚本: jupyter＃server-python用于服务器的暂存代码 ... 编辑spark-env.sh以管理员身份运行ubuntu chmod 755 -R / mnt / c / Users / Spark / logs cd / mnt / c / Users / Spark / sbin这些可能有效，不确定已将S

fogbeam_zeppelin:Apache Zeppelin的叉子（从技术上讲，但通常与上游资源几乎相同。几乎没有任何人使用此仓库的理由）: 内置Apache Spark支持要了解有关齐柏林飞艇的更多信息，请访问我们的网站要求Java 1.7 在Mac OSX，Ubuntu 14.X，CentOS 6.X上进行了测试Maven（如果您想从源代码构建） Node.js程序包管理器入门建立之前如果您没有...

zeppelin:齐柏林飞艇es: ＃策珀林文档：邮件列表：持续集成：贡献：许可证： ... （安装方法可能因您的环境而异，例如适用于Ubuntu。） sudo apt-get update sudo apt-get install openjdk-7-jdk sudo apt-get install git sudo apt-get i

word源码java-search_engine_ssm:search_engine_ssm: 小红书笔记搜索引擎web应用开发项目背景利用小红书针对关键词杭州的日志进行重新编排，提供搜索与推荐功能。运行环境 # 软件 ubuntu 18.04 java 1.8 hadoop 2.9.2 hbase 1.4.9 kafka 2.11.0-1.0.0 spark 2.4.0 ...

Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动，并使用MLlib API执行一些机器学习（ML）算法: 1）在虚拟机/本地机上使用ubuntu（或） 2）AWS EC2（或） 3）AWS EMR（或） 4）数据砖。为了使用数据砖在此github存储库中执行笔记本，请创建一个社区版帐户，然后开始为您的spark环境创建一个集群。完成...

javaee笔试题-tblog:技术博客站点: SparkR；工作室; Ubuntu 2018-03-13 rlang; 包裹; 离线 2017-02-18 乳胶； Ubuntu; 特克斯 2017-09-14 Python；想法; vim 2018-02-26 功能； Python; 范围 2018-02-26 区别；功能 2018-02-13 园艺工作； Had

asu-mcs：与我在ASU MCS计划上所做的所有工作相关的所有内容的活页夹存储库: 带有Hadoop 2.7的Spark 2.4.6 设置Hadoop二进制文件 Scala2.13.2 CSE578 Ubuntu 18 Python 3和熊猫，numpy，jupyter笔记本（可选）Postgres在Tableau上加载数据 CSE579 Ubuntu 18 Anaconda具有Python 3和clingo...

Global site tag (gtag.js) - Google Analytics