`

大数据系列10:Spark – 内存计算

阅读更多
 

wget http://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgz

tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz

mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0

wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz

tar -zxvf scala-2.9.3.tgz

sudo vi /etc/profile

增加:

export SCALA_HOME=/home/ysc/scala-2.9.3

export PATH=$PATH:$SCALA_HOME/bin

source /etc/profile

cd spark-0.8.0spark命令和hadoop命令重名,不加入path

cp conf/spark-env.sh.template conf/spark-env.sh

vi conf/slaves

修改localhosthost001

vi conf/spark-env.sh

增加:

JAVA_HOME=/home/ysc/jdk1.7.0_40

SCALA_HOME=/home/ysc/scala-2.9.3

SPARK_WORKER_INSTANCES=2

启动服务:

bin/start-all.sh

WEB界面:

Spark Master http://host001:8080/

Spark Worker http://host001:8081/

运行例子:

集群运算:

./run-example org.apache.spark.examples.JavaSparkPi spark://host001:7077

./run-example org.apache.spark.examples.JavaWordCount spark://host001:7077 README.md

本地运算:

./run-example org.apache.spark.examples.JavaSparkPi local[4] 4代表线程数目)

./run-example org.apache.spark.examples.JavaWordCount local[4]README.md

停止服务:

bin/stop-all.sh

 

Spark相关框架研究交流群,如:Apache Spark、Spark SQL、Spark Streaming、MLlib、GraphX等,有兴趣的请加Q群:182304757

 

 


 

APDPlat旗下十大开源项目

 

 

 

 

 

  

 

 

1
3
分享到:
评论

相关推荐

    大数据实验 实验六:Spark初级编程实践

    大数据实验 实验六:Spark初级编程实践

    阿里大数据之路:阿里巴巴大数据实践-339页.zip

    2. **阿里巴巴大数据架构**:阿里巴巴拥有世界领先的大数据处理平台,如Hadoop、Spark等,书中将详细解析这些系统的架构设计,包括数据采集、存储、处理和分析的全链路流程,以及如何实现大规模数据的实时计算和离线...

    《大数据日知录:架构与算法》完整版+书签

    大数据架构指的是支撑大数据处理的系统结构,而算法则是处理大数据时使用的一系列计算步骤和方法。《大数据日知录:架构与算法》这本书籍很可能围绕这些主题进行讲解。 首先,从架构的角度来看,大数据架构主要包含...

    华为大数据认证:Spark2x基于内存的分布式计算.pptx

    《华为大数据认证:Spark2x基于内存的分布式计算》 Spark,作为大数据处理领域的重要工具,自2009年在加州大学伯克利分校AMP实验室诞生以来,已经发展成为一款高效、通用且可扩展的计算引擎。它以其独特的内存计算...

    大数据课程设计:基于Hadoop和Spark的中文手写数字实时识别系统源代码+实验报告.zip

    大数据课程设计:基于Hadoop和Spark的中文手写数字实时识别系统源代码+实验报告.zip,含有代码注释,满分大作业资源,新手也可看懂,期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。该项目可以...

    Spark大数据处理:技术、应用与性能优化 (大数据技术丛书).pdf

    10. **Spark与Hadoop集成**:Spark可以直接读写HDFS数据,与Hadoop生态系统兼容,可以作为MapReduce的替代方案,提供更快的计算速度。 11. **Spark部署模式**:Spark可以本地运行、在Mesos或YARN上集群部署,也可以...

    大数据开发实战:SparkStreaming流计算开发

    SparkStreaming是大数据处理领域中的一种实时流计算框架,它是Apache Spark的一部分,旨在处理持续不断的数据流。Spark本身是对Hadoop MapReduce的优化和扩展,尤其是在处理速度、易用性、迭代计算和复杂数据分析...

    大数据之路:阿里巴巴大数据实践

    2. 阿里巴巴大数据架构:书中可能会详细解析阿里巴巴的大数据处理平台,如Hadoop、Spark等分布式计算框架,以及自研的大数据处理系统,如MaxCompute(原名ODPS)和Lindorm等。 3. 数据存储与管理:阿里巴巴如何利用...

    大数据项目实践:基于spark+mysql+echarts酒店度假数据可视化系统[源码+数据库+实训报告+项目总结PPT]

    该项大数据分析的主流框架,Spark这内存计算框架以及mysql和ECharts,运用spark主要的主要好处是计算量大的同时速度还快,可以有效的解决大数据计算时缓慢的现象,能有效解决hadoop的MapReduce的缺点同时运用ECharts...

    大数据技术课程的Spark大作业以及Spark实验.zip

    大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大...

    MAPR公司的大数据课程(适用spark开发应用程序)

    1. 高效的计算性能:Spark 可以实时处理大数据,提供高效的计算性能。 2. 可靠的内存性能:Spark 提供了可靠的内存性能,支持 iterative 算法和数据共享。 3. 多种组件支持:Spark 支持多种类型的组件,如流式计算、...

    大数据技术实践——Spark词频统计

    【Spark技术实践——词频统计】在大数据领域,Spark作为一种高效的数据处理框架,以其快速、通用和可扩展性而受到广泛关注。本实践旨在基于已经搭建的Hadoop平台,利用Spark组件进行文本词频统计,以此深入理解Scala...

    《大数据之路:阿里巴巴大数据实践》

    《大数据之路:阿里巴巴大数据实践》这本书是阿里巴巴集团在大数据领域的实践经验总结,涵盖了大数据技术的各个方面,包括数据采集、存储、处理、分析以及应用等环节。本文将深入探讨书中的核心知识点,旨在帮助读者...

    《大数据日知录:架构与算法》

    这涉及到分布式计算模型,如MapReduce和Spark,以及数据存储方案,如Hadoop Distributed File System (HDFS) 和NoSQL数据库。这些架构设计考虑了数据的分布式存储、并行计算和容错机制,确保大数据系统的稳定性和...

    Spark大数据的实现及行业应用案例.pptx

    1. 高性能:Spark大数据平台使用分布式计算技术,能够快速处理大规模数据。 2. 高灵活性:Spark大数据平台支持多种数据源和格式,能够处理各种类型的数据。 3. 高可扩展性:Spark大数据平台支持水平扩展,能够根据...

    2018大数据技术指南:Stream Processing, Statistics, and Scalability

    标题《2018年大数据技术指南:流处理,统计和可扩展性》与描述表明,本文献旨在探索大数据技术的发展演变,提供有关大数据架构的研究案例,并分享扩展大数据架构的知识。从给出的节选内容中,我们可以归纳以下知识点...

Global site tag (gtag.js) - Google Analytics