在eclipse上搭建spark的java开发环境

strayly

浏览: 97886 次
性别:
来自: 上海

最近访客更多访客>>

士大夫地方

孤狼18

pengcong90

yjlhope

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘
java
spark

首先安装好spark后设置环境变量SPARK_HOME=d:\spark，在环境变量path后面添加%SPARK_HOME%bin;

启动Eclipse建立Java项目，建立一个测试的类比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件

WordCount.java代码

package test.spark;

import scala.Tuple2;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.sql.SparkSession;

import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Pattern;

public final class WordCount {
  private static final Pattern SPACE = Pattern.compile(" ");

  public static void main(String[] args) throws Exception {

    if (args.length < 1) {
      System.err.println("Usage: JavaWordCount <file>");
      System.exit(1);
    }

    SparkSession spark = SparkSession
      .builder()
      .appName("JavaWordCount")
      .getOrCreate();

    JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD();

    JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
      @Override
      public Iterator<String> call(String s) {
        return Arrays.asList(SPACE.split(s)).iterator();
      }
    });

    JavaPairRDD<String, Integer> ones = words.mapToPair(
      new PairFunction<String, String, Integer>() {
        @Override
        public Tuple2<String, Integer> call(String s) {
          return new Tuple2<>(s, 1);
        }
      });

    JavaPairRDD<String, Integer> counts = ones.reduceByKey(
      new Function2<Integer, Integer, Integer>() {
        @Override
        public Integer call(Integer i1, Integer i2) {
          return i1 + i2;
        }
      });

    List<Tuple2<String, Integer>> output = counts.collect();
    for (Tuple2<?,?> tuple : output) {
      System.out.println(tuple._1() + ": " + tuple._2());
    }
    spark.stop();
  }
}

右键选择刚才建立的项目，选择 run as => run configurations , 选择arguments，
在program arguments 填入一个测试字数的文件，比如read.txt
在vm arguments参数设置中添加程序运行的环境参数比如 -Dspark.master=local -Xmx1g
然后运行程序

分享到：

pyspark在windows下java.net.SocketExcep ... | 用Spark ALS通过预测推荐电影(python)

2016-12-05 09:52
浏览 912
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

在eclipse上搭建spark的java开发环境

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

在eclipse上搭建spark的java开发环境

评论

发表评论

相关推荐

sklearn聚类之kmeans以及增量聚类

spark进行svd降维和kmeans聚类

spark 的 itemcf推荐

卡方检验提取特征来对文本分类

计算文本词频进行聚类

sklearn文本聚类

spark之word2vec使用(python)

spark2.3聚类算法lda代码(python)

TensorFlow 的SSE avx fma安装

(转载)Seq2SeqModel参数

(转载)基于CRF的中文分词

(转载)jieba全应用入门

(转载)汉语词性对照表[北大标准/中科院标准]

(转)python的nltk中文使用和学习资料汇总帮你入门提高

windows下python中运用libsvm的配置(转载)

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

用Spark ALS通过预测推荐电影(python)

Spark ALS推荐系统简单例子(python)

spark web ui 开启history server

Ubuntu下spark安装

最近访客更多访客>>