tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz
mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0
wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz
tar -zxvf scala-2.9.3.tgz
sudo vi /etc/profile
增加:
export SCALA_HOME=/home/ysc/scala-2.9.3
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile
cd spark-0.8.0(spark命令和hadoop命令重名,不加入path)
cp conf/spark-env.sh.template conf/spark-env.sh
vi conf/slaves
修改localhost为host001
vi conf/spark-env.sh
增加:
JAVA_HOME=/home/ysc/jdk1.7.0_40
SCALA_HOME=/home/ysc/scala-2.9.3
SPARK_WORKER_INSTANCES=2
启动服务:
bin/start-all.sh
WEB界面:
Spark Master :http://host001:8080/
Spark Worker :http://host001:8081/
运行例子:
集群运算:
./run-example org.apache.spark.examples.JavaSparkPi spark://host001:7077
./run-example org.apache.spark.examples.JavaWordCount spark://host001:7077 README.md
本地运算:
./run-example org.apache.spark.examples.JavaSparkPi local[4] (4代表线程数目)
./run-example org.apache.spark.examples.JavaWordCount local[4]README.md
停止服务:
bin/stop-all.sh
Spark相关框架研究交流群,如:Apache Spark、Spark SQL、Spark Streaming、MLlib、GraphX等,有兴趣的请加Q群:182304757
相关推荐
大数据实验 实验六:Spark初级编程实践
2. **阿里巴巴大数据架构**:阿里巴巴拥有世界领先的大数据处理平台,如Hadoop、Spark等,书中将详细解析这些系统的架构设计,包括数据采集、存储、处理和分析的全链路流程,以及如何实现大规模数据的实时计算和离线...
大数据架构指的是支撑大数据处理的系统结构,而算法则是处理大数据时使用的一系列计算步骤和方法。《大数据日知录:架构与算法》这本书籍很可能围绕这些主题进行讲解。 首先,从架构的角度来看,大数据架构主要包含...
《华为大数据认证:Spark2x基于内存的分布式计算》 Spark,作为大数据处理领域的重要工具,自2009年在加州大学伯克利分校AMP实验室诞生以来,已经发展成为一款高效、通用且可扩展的计算引擎。它以其独特的内存计算...
大数据课程设计:基于Hadoop和Spark的中文手写数字实时识别系统源代码+实验报告.zip,含有代码注释,满分大作业资源,新手也可看懂,期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。该项目可以...
10. **Spark与Hadoop集成**:Spark可以直接读写HDFS数据,与Hadoop生态系统兼容,可以作为MapReduce的替代方案,提供更快的计算速度。 11. **Spark部署模式**:Spark可以本地运行、在Mesos或YARN上集群部署,也可以...
SparkStreaming是大数据处理领域中的一种实时流计算框架,它是Apache Spark的一部分,旨在处理持续不断的数据流。Spark本身是对Hadoop MapReduce的优化和扩展,尤其是在处理速度、易用性、迭代计算和复杂数据分析...
2. 阿里巴巴大数据架构:书中可能会详细解析阿里巴巴的大数据处理平台,如Hadoop、Spark等分布式计算框架,以及自研的大数据处理系统,如MaxCompute(原名ODPS)和Lindorm等。 3. 数据存储与管理:阿里巴巴如何利用...
该项大数据分析的主流框架,Spark这内存计算框架以及mysql和ECharts,运用spark主要的主要好处是计算量大的同时速度还快,可以有效的解决大数据计算时缓慢的现象,能有效解决hadoop的MapReduce的缺点同时运用ECharts...
大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大作业以及Spark实验.zip大数据技术课程的Spark大...
1. 高效的计算性能:Spark 可以实时处理大数据,提供高效的计算性能。 2. 可靠的内存性能:Spark 提供了可靠的内存性能,支持 iterative 算法和数据共享。 3. 多种组件支持:Spark 支持多种类型的组件,如流式计算、...
【Spark技术实践——词频统计】在大数据领域,Spark作为一种高效的数据处理框架,以其快速、通用和可扩展性而受到广泛关注。本实践旨在基于已经搭建的Hadoop平台,利用Spark组件进行文本词频统计,以此深入理解Scala...
《大数据之路:阿里巴巴大数据实践》这本书是阿里巴巴集团在大数据领域的实践经验总结,涵盖了大数据技术的各个方面,包括数据采集、存储、处理、分析以及应用等环节。本文将深入探讨书中的核心知识点,旨在帮助读者...
这涉及到分布式计算模型,如MapReduce和Spark,以及数据存储方案,如Hadoop Distributed File System (HDFS) 和NoSQL数据库。这些架构设计考虑了数据的分布式存储、并行计算和容错机制,确保大数据系统的稳定性和...
1. 高性能:Spark大数据平台使用分布式计算技术,能够快速处理大规模数据。 2. 高灵活性:Spark大数据平台支持多种数据源和格式,能够处理各种类型的数据。 3. 高可扩展性:Spark大数据平台支持水平扩展,能够根据...
标题《2018年大数据技术指南:流处理,统计和可扩展性》与描述表明,本文献旨在探索大数据技术的发展演变,提供有关大数据架构的研究案例,并分享扩展大数据架构的知识。从给出的节选内容中,我们可以归纳以下知识点...