`
wbj0110
  • 浏览: 1600804 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Spark – 内存计算

阅读更多

wget http://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgz

tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz

mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0

wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz

tar -zxvf scala-2.9.3.tgz

sudo vi /etc/profile

增加:

export SCALA_HOME=/home/ysc/scala-2.9.3

export PATH=$PATH:$SCALA_HOME/bin

source /etc/profile

cd spark-0.8.0spark命令和hadoop命令重名,不加入path

cp conf/spark-env.sh.template conf/spark-env.sh

vi conf/slaves

修改localhosthost001

vi conf/spark-env.sh

增加:

JAVA_HOME=/home/ysc/jdk1.7.0_40

SCALA_HOME=/home/ysc/scala-2.9.3

SPARK_WORKER_INSTANCES=2

启动服务:

bin/start-all.sh

WEB界面:

Spark Master http://host001:8080/

Spark Worker http://host001:8081/

运行例子:

集群运算:

./run-example org.apache.spark.examples.JavaSparkPi spark://host001:7077

./run-example org.apache.spark.examples.JavaWordCount spark://host001:7077 README.md

本地运算:

./run-example org.apache.spark.examples.JavaSparkPi local[4] 4代表线程数目)

./run-example org.apache.spark.examples.JavaWordCount local[4]README.md

停止服务:

bin/stop-all.sh

分享到:
评论

相关推荐

    Spark 概述 – 微软商之狄

    Spark的许多特性,如内存计算、基于图的执行模型、容错机制等,使其在处理大规模数据集时表现出色。 首先,Spark可以和Hadoop交互,但它是为快速通用的集群计算而设计的。它基于图的通用执行模型,可以执行各种计算...

    藏经阁-Apache Spark – Apache HBase Connector.pdf

    Apache Spark 是一个基于内存的集群计算引擎,可以快速处理大量数据。Apache HBase 是一个基于 Hadoop 的分布式、面向列的 NoSQL 数据库,提供了高性能的数据存储和查询功能。本资源主要介绍了 Apache Spark 和 ...

    spark-2.1.1-bin-hadoop2.7.tgz.7z

    1. **Spark Core**:这是Spark的基础,提供了分布式任务调度、内存管理、错误恢复和与其他存储系统的接口。 2. **Spark SQL**:用于处理结构化数据,它支持SQL查询并通过DataFrame API提供了与多种数据源的交互。 3....

    Spark启动过程中遇到的错误 ./spark-shell –master spark://node001:7077

    Spark是分布式计算框架,其内存管理分为Driver内存和Executor内存。Driver是负责执行用户代码和协调任务的进程,而Executor是在工作节点上运行任务的实际进程。在这种情况下,问题出在Driver内存不足上。 错误消息...

    Assigment2:THP 7021 – 高性能计算和大数据

    3. **应用大数据处理框架**:可能涉及到Apache Spark,利用其内存计算能力提升处理速度。 4. **数据处理与分析**:可能涉及到对大量数据进行预处理、清洗、转换和分析,使用Java的集合框架或者第三方库如Apache ...

    大数据云计算在能源行业思考(甲骨文(中国).pdf

    大数据的主要技术 • 大数据的采集和预处理 – 特别是数据的清洗和质量控制 • 大数据的存贮和管理 – 结构化和非结构化、...计算(Hadoop)、图计算(Pregel)、内存计算(HANA、SPARK) • 大数据的可视化 • 大数据的安全

    从RAM学习突破–第2部分

    最后,文章可能探讨了分布式内存系统,如Apache Spark,这些系统允许跨多个节点共享和处理大数据,进一步扩展了RAM的可用性。在大规模机器学习项目中,分布式内存可以处理超出单个机器内存容量的数据集,通过并行...

    大数据应用实践–Vertica技术和案例分享21.zip

    与传统的行式数据库相比, Vertica在处理大数据时能够提供更快的查询响应时间,减少了I/O操作,并优化了内存使用。 该压缩包中的“大数据应用实践–Vertica技术和案例分享21.pptx”文件很可能包含了以下内容: 1. ...

    南京邮电大学云计算与大数据课后作业节选(附题干).pdf

    主要的大数据处理系统包括:数据查询分析计算系统(如HBase)、批处理系统(如Hadoop和Spark)、流式计算系统(如Storm)、迭代计算系统(如Spark)、图计算系统(如Giraph)以及内存计算系统(如Dremel和HANA)。...

Global site tag (gtag.js) - Google Analytics