开始学习Spark了,先看看Spark能做点什么吧。
最好的方式就是先运行个例子程序。先从Spark网站下载一个运行环境(我的运行环境是Win7, 64bits) 。
我们在官方网站: http://spark.apache.org/downloads.html下载一个版本:
我选 Spark 1.0 + Prebuild for Hadoop 2.3, Link为
http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop2.3.tgz
下载解压后,进入到bin目录,运行 run-example.cmd SparkPi 10, 你就可以看到运行的结果了。
你可能会遇到以下这个问题:
===> 说null/bin/winutils.exe找不到,这是因为Spark引用Hadoop的包,而Hadoop需要检查这个文件。所以解决这个最简单方式是设置 HADOOP_HOME指向你Spark的根目录,然后把winutils.exe拷到bin目录。如果没有winutils.exe,你可以到网上搜下。
a. 你可以 SET HADOOP_HOME=D:\Java\spark\spark-1.1.0-bin-hadoop2.3 (需要将这个路径改成你的实际路径.
然后再运行命令就可以了。
b. 或者修改bin/*.cmd文件,把下面这句加进去就可以了
SET HADOOP_HOME=%~dp0..
这句就是说设置HADOOP_HOME的路径为 bin的父目录。
分享到:
相关推荐
Spark作为一个快速、通用且可扩展的大数据处理框架,以其高效、易用的特性在大数据领域广受青睐。本项目以Scala语言为基础,结合Spark API,提供了丰富的实践案例,以帮助开发者熟练掌握Spark的各种操作。 一、...
Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和可扩展的特性而闻名。Spark的核心设计是基于内存计算,它极大地提高了数据处理的速度,使得数据科学家和开发人员能够在处理大规模数据集时获得...
Spark是Apache Hadoop生态系统中的一个分布式计算框架,它专为大规模数据处理而设计,提供了高效、灵活和易于使用的数据处理工具。在这个“spark example 2.2.0版本 maven项目”中,我们可以深入理解Spark的基本用法...
在这个名为"terraform-emr-spark-example"的项目中,我们将深入探讨如何使用Terraform在Amazon Elastic MapReduce (EMR) 上创建、配置和管理安全且可定制的Apache Spark集群。 **1. Terraform核心概念** Terraform...
总的来说,Spark程序的示例测试程序为开发者提供了一个实践平台,通过Java API深入学习Spark的各个方面,包括数据处理、分布式计算和性能调优。通过不断地试验和调试,开发者可以更好地掌握Spark这一强大工具,提升...
在"**dbscan-on-spark-example-master**"压缩包中,可能包含了以下内容: - 项目源码:包含Scala文件,实现了DBSCAN算法与Spark的集成。 - 测试数据:可能提供了一小部分测试数据用于验证算法的正确性。 - README.md...
在这个"**data-mining-algorithms-cpp-master_example_appendix_bigdata_**"项目中,我们可以看到一个用C++实现的数据挖掘算法的示例代码库,特别关注于大数据处理。这个项目的描述表明代码来源于GitHub,意味着这是...
Spark Streaming 是 Apache Spark 的一个模块,专门用于实时数据流处理。它是 Spark 核心 API 的扩展,设计上遵循了 Spark 的简洁、易用和高性能的特点。Spark Streaming 支持高吞吐量和容错能力,使得它能够在...
Spark 2.0是Apache Spark的一个重要里程碑,它...总的来说,"spark2.0-examples"项目为开发者提供了一个深入学习Spark 2.0的实践平台,通过这些实例,你可以掌握Spark的核心特性,并将其应用于实际的大数据处理任务中。
SparkML是Apache Spark的一个模块,提供了一套用于构建和评估机器学习管道的API,支持多种机器学习算法,包括随机森林。 随机森林是一种集成学习方法,它通过构建并组合多个决策树来提高预测的准确性和稳定性。在...
创建此应用程序是为了学习 spark 和使用 github/开源项目使用 Spark API 编写 Spark 应用程序并在集群上执行在外壳上执行其他语言开发的 Spark 程序,如 PySpark 在命令行上执行 SparkQL 查询
Spark 2.8.3是大数据处理领域中的一个重要版本,它是Apache Spark项目的一部分,提供了高效、易用且可扩展的数据处理能力。Spark以其强大的内存计算和流处理功能,被广泛应用于数据挖掘、机器学习和实时分析等多个...
JPMML(Java Predictive Model Markup Language)是一个开源项目,用于将各种机器学习模型转换为PMML(Predictive Model Markup Language)格式。PMML是一种标准化的XML语言,用于描述统计和数据挖掘模型,使得模型...
本示例项目“Spark-Scala-Maven-Example”旨在展示如何配置Maven来构建和运行一个结合了Spark与Scala的应用程序。 首先,我们需要了解Spark。Spark是由Apache开发的大数据处理框架,它提供了快速、通用和可扩展的...
通过"huaweicloud-mrs-example-mrs-2.0.zip"中的示例代码,开发者可以学习如何在华为云MRS平台上配置和运行这些组件的作业,以及如何利用它们处理和分析海量数据。这些示例将涵盖各种场景,从简单的数据读写到复杂的...
3. **Hadoop环境**:Spark可以独立运行,但为了充分利用其分布式计算能力,建议同时安装Hadoop。如果尚未安装Hadoop,可以参照[厦门大学数据库实验室](http://dblab.xmu.edu.cn/blog/install-hadoop/)提供的安装教程...
假设有一个大规模的数据集,希望通过分布式的方式训练一个机器学习模型。可以使用Spark MLlib库来实现这一目标。下面是一个简单的线性回归模型训练的例子。 **4.1 准备数据集** 假设已经准备好了CSV格式的数据集,...