spark 常用脚本 - zzm - ITeye博客

`

m635674608

浏览: 5043516 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

明兜3号：部署落地+业务迁移玩转k8s进阶与企业级实践技能（又名：Ku ...
Kubernetes系统常见运维技巧
q328965539：牛掰啊资料收集的很全面
HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）
guichou： fluent挂载了/var/lib/kubelet/pods目 ...
kubernetes上部署Fluentd+Elasticsearch+kibana日志收集系统
xu982604405： System.setProperty("java.r ...
jmx rmi 穿越防火墙问题及jmxmp的替代方案
大漠小帆：麻烦问下，“获取每个Item相似性最高的前N个Item”，这个 ...
协同过滤推荐算法在MapReduce与Spark上实现对比

spark 常用脚本

博客分类：

spark

阅读更多

# Run on a Spark standalone cluster
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://207.184.161.138:7077 \
  --executor-memory 20G \
  --total-executor-cores 100 \
  /path/to/examples.jar \

spark-class org.apache.spark.deploy.master.Master

spark-class org.apache.spark.deploy.worker.Worker spark://9YCPFQ5M05Y29A8:7077

spark-shell --master spark://9YCPFQ5M05Y29A8:7077

spark-submit --class spark.JavaWordCount --master spark://9YCPFQ5M05Y29A8:7077 E:\wordCount.jar

spark-class org.apache.spark.deploy.worker.Worker spark://Lenovo-PC:7077

spark-submit --class spark.JavaWordCount --master spark://Lenovo-PC:7077 --executor-memory 512m --total-executor-cores 6 E:\wordcount.jar

spark-class org.apache.spark.deploy.worker.Worker spark://Lenovo-PC:7077 --cores 2 --memory 800m

spark-class org.apache.spark.deploy.worker.Worker spark://Lenovo-PC:7077 --cores 2 --memory 800m

spark-shell --master spark://9YCPFQ5M05Y29A8:7077 --executor-memory 2000m --total-executor-cores 5

分享到：

Apache Spark探秘：Spark Shuffle实现 | DAG图（有向无环图）

2015-10-23 00:15
浏览 1074
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据常用脚本.rar: "大数据常用脚本.rar"这个压缩包很可能包含了多种用于大数据操作的脚本示例，可能包括Python、Shell、Pig Latin、HiveQL等。下面将详细讨论这些脚本语言在大数据处理中的应用和重要知识点。 1. Python：Python是...

集群常用脚本及相关组件配置文件: "集群常用脚本及相关组件配置文件"这个主题涵盖了多个用于管理Hadoop集群的实用脚本和配置文件，这对于理解集群的工作原理以及如何高效地操作它们非常有帮助。以下是这些文件及其代表的知识点的详细解释： 1. **...

Spark实验：Standalone模式安装部署（带答案）1: 6. **启动Spark集群**：在master节点上运行`start-all.sh`脚本启动所有Spark服务。 7. **验证安装部署**：通过jps命令检查各节点的进程，确保Spark Master和Worker正常运行，同时可访问Web UI进行监控。 **五、注意...

spark-3.0.0-bin-hadoop2.7.tgz: MLlib是Spark提供的机器学习库，包含各种常用的机器学习算法，如分类、回归、聚类、协同过滤等，同时也提供了模型选择、特征提取和转换等功能。MLlib的API设计易于使用，并支持大规模数据集的并行计算。 5. **...

spark完全分布式环境搭建.pdf: 在本文档中，我们使用 `start-all.sh` 和 `start-history-server.sh` 脚本来启动 Spark 集群。五、HDFS 配置在 Spark 分布式环境中，HDFS 是一种常用的分布式文件系统。在本文档中，我们使用 HDFS 来存储 Spark ...

Spark快速数据处理 PDF电子书下载带书签目录完整版: 本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试，同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群，使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署，本章将介绍在EC2...

Xgboost Spark Jar包及Python接口文件: 通过PySpark，Python开发者可以无缝地将Python脚本与Spark集群连接，实现大规模的数据处理和机器学习任务。 "大数据"标签提示我们，Xgboost Spark的组合是为了解决大数据问题。在大数据场景下，单机计算往往无法...

基于hbase + spark 实现常用推荐算法（主要用于精准广告投放和推荐系统）.zip: 在本项目中，"基于HBase + Spark 实现常用推荐算法（主要用于精准广告投放和推荐系统）"，我们将探讨如何利用大数据处理工具Spark与分布式数据库HBase协同工作，以实现高效的推荐系统。推荐系统在现代互联网行业中...

xmqtt spark2.6.1 源码项目: ANT是Java项目常用的构建工具，它允许开发者通过XML文件定义构建过程，包括编译、测试、打包等步骤。下载此项目后，无需额外配置，只需导入Eclipse，然后利用ANT脚本执行构建和运行操作。源码包含的所有jar文件，...

Spark Configuration - Spark 1.6.2: 环境变量主要用于设置机器级别的参数，例如IP地址，可以通过在每个节点的conf/spark-env.sh脚本中配置。此外，Spark也支持通过log4j.properties文件来配置日志系统。 2. Spark配置项在Spark中，大部分的应用参数都...

shell脚本-大数据: 例如，通过`hadoop jar`命令运行MapReduce作业，或者用`spark-submit`启动Spark应用，这样可以利用shell脚本实现任务的批量执行和调度。再者，shell脚本也可以与NoSQL数据库如HBase、Cassandra集成。通过shell命令...

使用Python+Spark进行音乐推荐.zip: 8. **项目结构**：MusicRecommender-master可能包含以下部分：数据文件、Python脚本（用于数据处理、模型训练、推荐及性能评估）、配置文件（如Spark配置和环境变量）以及可能的测试脚本。 9. **部署与运行**：项目...

安装hadoop spark: - 是Spark的机器学习库，提供了常用的机器学习算法和工具。 5. **GraphX**： - 用于图和图并行计算的API，使得开发者能够方便地进行图数据分析。通过以上步骤，可以完成Hadoop和Spark的安装与配置，并建立起一...

HTML脚本大全常用Javascript特效代: "HTML脚本大全常用Javascript特效代"这个主题涵盖了如何使用JavaScript来实现各种网页特效。一、HTML与JavaScript基础 HTML主要负责网页的结构，而JavaScript则负责行为。通过在HTML中嵌入JavaScript代码，可以...

巴豆大数据团队讲师课件Spark.pdf: 八斗大数据培训团队提供的这份课件内容丰富，涵盖了Spark的安装、Scala语言基础、Spark核心概念、调优策略、常用组件、实际应用等重要知识点。在安装方面，该文档介绍了如何在Yarn集群上搭建Spark，包括下载Spark...

cdh及其组件安装的shell脚本集合: 3. **startMysql.sh**：启动MySQL数据库服务的脚本，MySQL是常用的关系型数据库管理系统，在CDH中用于存储元数据和其他结构化数据。 4. **masterntp.sh**：NTP（网络时间协议）用于同步系统时钟，此脚本可能是配置...

Spark开发指南.pdf: - **描述**: 最常用的 Spark 任务提交工具，可用于提交 Spark 应用程序。 - **示例**: ```shell spark-submit --master yarn --deploy-mode client --num-executors 2 --executor-cores 1 --executor-memory 1G $...

基于豆瓣电影爬虫及Spark数据分析可视化设计源码.zip: - `spark_analysis.py`：Spark数据分析脚本。 - `visualizations`：包含生成的图表。 - `requirements.txt`：列出项目依赖的Python库。 7. **案例设计与期末大作业**：这表明这个项目可能是一个课程作业，旨在让...

面试大数据岗位 spark相关问题汇总: MLlib是Spark提供的机器学习库，包含各种常用的机器学习算法，如分类、回归、聚类、协同过滤等。 **2.3 GraphX** GraphX是Spark提供的图处理库，可以用来处理大规模的图形数据集。 #### 三、Spark生态系统 **3.1...

Global site tag (gtag.js) - Google Analytics