`

Spark整合HDFS、WordCount示例

 
阅读更多

原创转载请注明出处:http://agilestyle.iteye.com/blog/2294233

 

前提条件

Hadoop HA搭建完毕

Spark HA搭建完毕

 

整合步骤

cd到spark的conf的目录,修改spark-env.sh

 

添加如下

export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.4/etc/hadoop


 

保存退出,将spark-env.sh分发到其他两个节点

scp spark-env.sh hadoop-0000:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf
scp spark-env.sh hadoop-0001:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf

 

启动

首先启动Hadoop HA

http://hadoop-0000:50070 —— active


http://hadoop-0001:50070 —— standby


 

接着启动Spark HA(这里选择是hadoop-0002作为master)

http://hadoop-0002:8080 —— ALIVE


http://hadoop-0001:8080 —— STANDBY

 

执行spark-shell

spark-shell --master spark://hadoop-0002:7077


  

WordCount

为了运行WordCount,需要上传一个文件到HDFS

hadoop fs -put wordcount.txt /spark/wordcount


 

切回spark-shell,执行如下

val rdd = sc.textFile("hdfs://hadoop-0000:9000/spark/wordcount/wordcount.txt")


 

接着执行

rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

这条语句等价于

rdd.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b).collect


 

 

 

 

 

 

  • 大小: 13.9 KB
  • 大小: 23.9 KB
  • 大小: 27.1 KB
  • 大小: 27.4 KB
  • 大小: 88.4 KB
  • 大小: 61.4 KB
  • 大小: 66.8 KB
  • 大小: 10.4 KB
  • 大小: 27.8 KB
  • 大小: 39.4 KB
分享到:
评论

相关推荐

    spark下实现wordcount

    WordCount 是一个经典的示例程序,用于统计文本文件中每个单词出现的次数。本篇将详细介绍如何在 Spark 环境下实现 WordCount,并对相关配置文件进行解析。 #### 二、Spark WordCount 实现步骤 ##### 1. 配置 HDFS...

    Java实现Spark词配对Wordcount计数代码实现

    在大数据处理领域,Apache Spark作为一个快速、通用且可扩展的计算框架,被广泛...这个简单的Wordcount示例只是Spark功能的冰山一角,Spark还支持更复杂的操作,如图计算、机器学习等,能够满足各种大数据处理需求。

    hadoop scala spark 例子项目,运行了单机wordcount

    在WordCount示例中,Spark读取HDFS上的数据,通过SparkContext创建RDD(弹性分布式数据集),然后在RDD上执行map操作,将每个单词分离出来,再通过reduceByKey操作聚合每个单词的计数。 4. **Maven**: Maven帮助...

    Springboot 结合Apache Spark 2.4.4与Scala 2.12 集成示例

    解压后,开发者可以进一步了解项目的具体实现细节,如如何配置Spark的HDFS、YARN或Mesos连接,以及如何处理数据输入和输出。 总结来说,Spring Boot结合Apache Spark 2.4.4和Scala 2.12,可以构建出高效的数据处理...

    基于HDFS的spark分布式Scala程序测试

    本篇文章将重点介绍如何在Hadoop分布式集群和基于Hadoop分布式文件系统(HDFS)的Spark集群上部署并配置Scala程序进行WordCount测试的过程。测试环境包括Spark Shell和IntelliJ IDEA。 #### 二、环境部署与配置 ##...

    pycharm windows spark 环境的安装

    ### PyCharm 在 Windows 下配置 Spark 环境与 HDFS 文件读取 #### 准备工作 在开始配置之前,需要确保以下条件已满足: 1. **Java 1.8 的配置**:Spark 要求 Java 环境支持,推荐版本为 Java 1.8。 2. **Hadoop ...

    javawordcount

    WordCount示例虽然简单,但它是理解Hadoop MapReduce工作原理的良好起点。实际应用中,可以对其进行优化,例如使用Combiner减少网络传输的数据量,或处理更复杂的数据结构和分析任务。 通过学习和实践"java...

    Spark 基础.docx

    4. Spark Shell中的WordCount示例 - WordCount是大数据处理的经典例子,用于统计文本中单词出现的次数。 - 在Spark Shell中,使用`sc.textFile`读取HDFS上的文件,`flatMap`拆分单词,`map`将每个单词映射为键值对...

    spark1.6.1

    5. **测试**:可以通过运行`spark-shell`或执行一个简单的WordCount示例来验证Spark是否成功安装。 ### 总结 Spark 1.6.1作为一个成熟的版本,在大数据处理领域有着广泛的应用。通过与Hadoop 2.6的紧密结合,不仅...

    Hadoop入门脚本WordCount

    而WordCount则是Hadoop入门的经典示例,通过它,我们可以深入理解Hadoop的工作原理。本文将详细解析这个简单的WordCount程序,帮助初学者快速入门Hadoop。 一、Hadoop简介 Hadoop是Apache基金会的一个开源项目,...

    hadoop&spark安装、环境配置、使用教程、应用项目

    与 Hadoop 类似,Spark 也支持 WordCount 这样的简单文本处理任务,但使用 Spark 可以更简单、更高效地完成同样的任务。 - **编写 Spark 程序**:使用 Scala 或 Python 编写 Spark 程序。 - **运行 Spark 作业**:...

    java开发spark程序

    本篇文章将深入探讨如何使用Java开发Spark程序,并基于提供的"sparkJava"压缩包文件中的示例代码进行解析。 首先,我们需要理解Spark的核心概念。Spark主要由四个组件构成:Spark Core、Spark SQL、Spark Streaming...

    sparkstreaming

    **实时 WordCount 示例**: 1. **安装 nc 工具**:在 Linux 系统上使用 `yum install -y nc` 命令安装 nc 工具,用于监听端口并接收数据。 2. **编写 Spark Streaming 程序**:程序通过监听特定端口接收输入数据,...

    spark集群安装部署与初步开发

    - 运行简单的Spark应用程序,例如WordCount示例。 - 验证集群的稳定性和性能。 #### 七、总结 通过以上步骤,可以成功搭建一个完整的Spark集群,并具备基本的开发能力。从环境准备到集群搭建,再到开发工具的选择...

    Vmware的Centos7中的Spark虚拟机配置

    - 运行MapReduce任务测试Yarn,例如WordCount示例。 以上是配置Vmware的Centos7中的Spark虚拟机所需的基本步骤,注意每个环节的版本匹配和配置文件的正确性,以确保Spark能在Hadoop集群上顺利运行。同时,根据实际...

    Hadoop & Spark 安装、环境配置及应用项目详解.docx

    下面是一个简单的Spark WordCount示例代码: ```python from pyspark import SparkContext if __name__ == "__main__": sc = SparkContext(appName="WordCount") lines = sc.textFile("hdfs://localhost:9000/...

    Spark1.6.0安装与使用

    val textFile = sc.textFile("hdfs://<master_node_ip>:9000/wordCount/input") val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) counts.collect().foreach...

    spark-examples

    火花示例 建造 制作罐子: mvn package 运行和测试 将 inputfile.txt 上传到 hdfs: hadoop fs -put inputfile.txt 从 CDH5 集群中的网关节点运行 SparkWordCount: spark-submit --class ...

    MapReduce WordCount

    **WordCount示例的意义**: WordCount是最简单的MapReduce程序,用于演示模型的基本工作原理。它有助于理解分布式计算的流程,包括数据的分片、分布、处理和聚合。对于初学者来说,这是一个很好的起点,通过编写和...

    windows10下spark2.3.0本地开发环境搭建-亲测

    3. 运行Spark示例:在IDE中编写一个简单的Spark程序,如WordCount,通过spark-submit提交到本地运行。 通过以上步骤,你将在Windows 10环境下成功搭建Spark 2.3.0的本地开发环境,可以开始进行Spark应用的开发和...

Global site tag (gtag.js) - Google Analytics