tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz
mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0
wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz
tar -zxvf scala-2.9.3.tgz
sudo vi /etc/profile
增加:
export SCALA_HOME=/home/ysc/scala-2.9.3
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile
cd spark-0.8.0(spark命令和hadoop命令重名,不加入path)
cp conf/spark-env.sh.template conf/spark-env.sh
vi conf/slaves
修改localhost为host001
vi conf/spark-env.sh
增加:
JAVA_HOME=/home/ysc/jdk1.7.0_40
SCALA_HOME=/home/ysc/scala-2.9.3
SPARK_WORKER_INSTANCES=2
启动服务:
bin/start-all.sh
WEB界面:
Spark Master :http://host001:8080/
Spark Worker :http://host001:8081/
运行例子:
集群运算:
./run-example org.apache.spark.examples.JavaSparkPi spark://host001:7077
./run-example org.apache.spark.examples.JavaWordCount spark://host001:7077 README.md
本地运算:
./run-example org.apache.spark.examples.JavaSparkPi local[4] (4代表线程数目)
./run-example org.apache.spark.examples.JavaWordCount local[4]README.md
停止服务:
bin/stop-all.sh
相关推荐
Spark的许多特性,如内存计算、基于图的执行模型、容错机制等,使其在处理大规模数据集时表现出色。 首先,Spark可以和Hadoop交互,但它是为快速通用的集群计算而设计的。它基于图的通用执行模型,可以执行各种计算...
Apache Spark 是一个基于内存的集群计算引擎,可以快速处理大量数据。Apache HBase 是一个基于 Hadoop 的分布式、面向列的 NoSQL 数据库,提供了高性能的数据存储和查询功能。本资源主要介绍了 Apache Spark 和 ...
1. **Spark Core**:这是Spark的基础,提供了分布式任务调度、内存管理、错误恢复和与其他存储系统的接口。 2. **Spark SQL**:用于处理结构化数据,它支持SQL查询并通过DataFrame API提供了与多种数据源的交互。 3....
Spark是分布式计算框架,其内存管理分为Driver内存和Executor内存。Driver是负责执行用户代码和协调任务的进程,而Executor是在工作节点上运行任务的实际进程。在这种情况下,问题出在Driver内存不足上。 错误消息...
3. **应用大数据处理框架**:可能涉及到Apache Spark,利用其内存计算能力提升处理速度。 4. **数据处理与分析**:可能涉及到对大量数据进行预处理、清洗、转换和分析,使用Java的集合框架或者第三方库如Apache ...
大数据的主要技术 • 大数据的采集和预处理 – 特别是数据的清洗和质量控制 • 大数据的存贮和管理 – 结构化和非结构化、...计算(Hadoop)、图计算(Pregel)、内存计算(HANA、SPARK) • 大数据的可视化 • 大数据的安全
最后,文章可能探讨了分布式内存系统,如Apache Spark,这些系统允许跨多个节点共享和处理大数据,进一步扩展了RAM的可用性。在大规模机器学习项目中,分布式内存可以处理超出单个机器内存容量的数据集,通过并行...
与传统的行式数据库相比, Vertica在处理大数据时能够提供更快的查询响应时间,减少了I/O操作,并优化了内存使用。 该压缩包中的“大数据应用实践–Vertica技术和案例分享21.pptx”文件很可能包含了以下内容: 1. ...
主要的大数据处理系统包括:数据查询分析计算系统(如HBase)、批处理系统(如Hadoop和Spark)、流式计算系统(如Storm)、迭代计算系统(如Spark)、图计算系统(如Giraph)以及内存计算系统(如Dremel和HANA)。...