`

大数据系列10:Spark – 内存计算

阅读更多
 

wget http://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgz

tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz

mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0

wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz

tar -zxvf scala-2.9.3.tgz

sudo vi /etc/profile

增加:

export SCALA_HOME=/home/ysc/scala-2.9.3

export PATH=$PATH:$SCALA_HOME/bin

source /etc/profile

cd spark-0.8.0spark命令和hadoop命令重名,不加入path

cp conf/spark-env.sh.template conf/spark-env.sh

vi conf/slaves

修改localhosthost001

vi conf/spark-env.sh

增加:

JAVA_HOME=/home/ysc/jdk1.7.0_40

SCALA_HOME=/home/ysc/scala-2.9.3

SPARK_WORKER_INSTANCES=2

启动服务:

bin/start-all.sh

WEB界面:

Spark Master http://host001:8080/

Spark Worker http://host001:8081/

运行例子:

集群运算:

./run-example org.apache.spark.examples.JavaSparkPi spark://host001:7077

./run-example org.apache.spark.examples.JavaWordCount spark://host001:7077 README.md

本地运算:

./run-example org.apache.spark.examples.JavaSparkPi local[4] 4代表线程数目)

./run-example org.apache.spark.examples.JavaWordCount local[4]README.md

停止服务:

bin/stop-all.sh

 

Spark相关框架研究交流群,如:Apache Spark、Spark SQL、Spark Streaming、MLlib、GraphX等,有兴趣的请加Q群:182304757

 

 


 

APDPlat旗下十大开源项目

 

 

 

 

 

  

 

 

1
3
分享到:
评论

相关推荐

    大数据云计算在能源行业思考(甲骨文(中国).pdf

    大数据的主要技术 • 大数据的采集和预处理 – 特别是数据的清洗和质量控制 • 大数据的存贮和管理 – 结构化和非结构化、...计算(Hadoop)、图计算(Pregel)、内存计算(HANA、SPARK) • 大数据的可视化 • 大数据的安全

    Spark 概述 – 微软商之狄

    Spark的许多特性,如内存计算、基于图的执行模型、容错机制等,使其在处理大规模数据集时表现出色。 首先,Spark可以和Hadoop交互,但它是为快速通用的集群计算而设计的。它基于图的通用执行模型,可以执行各种计算...

    大数据应用实践–Vertica技术和案例分享21.zip

    与传统的行式数据库相比, Vertica在处理大数据时能够提供更快的查询响应时间,减少了I/O操作,并优化了内存使用。 该压缩包中的“大数据应用实践–Vertica技术和案例分享21.pptx”文件很可能包含了以下内容: 1. ...

    Assigment2:THP 7021 – 高性能计算和大数据

    3. **应用大数据处理框架**:可能涉及到Apache Spark,利用其内存计算能力提升处理速度。 4. **数据处理与分析**:可能涉及到对大量数据进行预处理、清洗、转换和分析,使用Java的集合框架或者第三方库如Apache ...

    南京邮电大学云计算与大数据课后作业节选(附题干).pdf

    主要的大数据处理系统包括:数据查询分析计算系统(如HBase)、批处理系统(如Hadoop和Spark)、流式计算系统(如Storm)、迭代计算系统(如Spark)、图计算系统(如Giraph)以及内存计算系统(如Dremel和HANA)。...

    从RAM学习突破–第2部分

    最后,文章可能探讨了分布式内存系统,如Apache Spark,这些系统允许跨多个节点共享和处理大数据,进一步扩展了RAM的可用性。在大规模机器学习项目中,分布式内存可以处理超出单个机器内存容量的数据集,通过并行...

Global site tag (gtag.js) - Google Analytics