- 浏览: 97406 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
jyjsjd:
请教博主这个ChineseTokenizer()你是怎么写的, ...
使用WVTool进行文本分类 -
superclay:
能不能发个indexwriter indexsearch ...
结合ehcache缓存对lucene使用单例模式搜索 -
strayly:
我采用和ehcache缓存结合使用单例模式
使用ehcache ...
lucene搜索优化(转)
首先安装好spark后 设置环境变量SPARK_HOME=d:\spark,在环境变量path后面添加%SPARK_HOME%bin;
启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件
WordCount.java代码
右键选择刚才建立的项目,选择 run as => run configurations , 选择arguments,
在program arguments 填入一个测试字数的文件,比如read.txt
在vm arguments参数设置中 添加程序运行的环境参数 比如 -Dspark.master=local -Xmx1g
然后 运行程序
启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件
WordCount.java代码
package test.spark; import scala.Tuple2; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import org.apache.spark.sql.SparkSession; import java.util.Arrays; import java.util.Iterator; import java.util.List; import java.util.regex.Pattern; public final class WordCount { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exception { if (args.length < 1) { System.err.println("Usage: JavaWordCount <file>"); System.exit(1); } SparkSession spark = SparkSession .builder() .appName("JavaWordCount") .getOrCreate(); JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD(); JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { @Override public Iterator<String> call(String s) { return Arrays.asList(SPACE.split(s)).iterator(); } }); JavaPairRDD<String, Integer> ones = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<>(s, 1); } }); JavaPairRDD<String, Integer> counts = ones.reduceByKey( new Function2<Integer, Integer, Integer>() { @Override public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<?,?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } spark.stop(); } }
右键选择刚才建立的项目,选择 run as => run configurations , 选择arguments,
在program arguments 填入一个测试字数的文件,比如read.txt
在vm arguments参数设置中 添加程序运行的环境参数 比如 -Dspark.master=local -Xmx1g
然后 运行程序
发表评论
-
sklearn聚类之kmeans以及增量聚类
2019-07-11 14:47 1206使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加 ... -
spark进行svd降维和kmeans聚类
2019-07-05 16:36 843import jieba import jieba.analy ... -
spark 的 itemcf推荐
2019-05-29 16:21 0#-*-coding:utf-8-*- ''' Cr ... -
卡方检验提取特征来对文本分类
2019-05-05 17:30 927count_vect = CountVectorizer( ... -
计算文本词频进行聚类
2019-05-05 17:04 472import jieba import jieba.an ... -
sklearn文本聚类
2019-05-05 17:04 1import jieba import jieba.an ... -
spark之word2vec使用(python)
2018-08-15 09:57 2059from pyspark import SparkConf, ... -
spark2.3聚类算法lda代码(python)
2018-08-15 09:49 1586spark的lda有两个一个是mllib下 一个是ml下的,下 ... -
TensorFlow 的SSE avx fma安装
2017-05-06 19:22 982W tensorflow/core/platform/cpu_ ... -
(转载)Seq2SeqModel参数
2017-05-05 16:15 1686训练数据和预处理 数 ... -
(转载)基于CRF的中文分词
2017-04-28 17:27 1046CRF简介 Conditional Random Fi ... -
(转载)jieba全应用入门
2017-03-22 09:14 532# coding: utf-8 # ###jieba特 ... -
(转载)汉语词性对照表[北大标准/中科院标准]
2017-03-22 09:15 470词性编码 词性名称 注 解 Ag ... -
(转)python的nltk中文使用和学习资料汇总帮你入门提高
2017-03-06 10:19 629转自:http://blog.csdn.net/huy ... -
windows下python中运用libsvm的配置(转载)
2016-12-13 14:03 669转载 http://blog.sina.com.cn/ ... -
pyspark在windows下java.net.SocketException: Connection reset by peer 错误
2016-12-05 16:12 2184pyspark在windows加载数据集 训练模型出现 以下错 ... -
用Spark ALS通过预测推荐电影(python)
2016-12-02 11:34 3626#!/usr/bin/env python # codi ... -
Spark ALS推荐系统简单例子(python)
2016-11-30 10:55 5218采用MovieLens 100k数据集 http://file ... -
spark web ui 开启history server
2016-11-29 17:22 885在/tmp下建立目录 spark-events ./sbin ... -
Ubuntu下spark安装
2016-11-22 10:26 431先安装jdk: sudo apt-get update sud ...
相关推荐
Spark 开发环境搭建是指在 Eclipse 集成开发环境中设置和配置 Spark 开发环境的过程。Spark 是一个基于 Hadoop 的大数据处理框架,它提供了高效的数据处理能力。为了在 Eclipse 中开发 Spark 应用程序,需要搭建...
本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作系统。 - **CentOS7**:操作系统,作为集群节点的操作系统。 - **...
本教程涵盖了大数据技术开发环境的搭建,涉及多个重要组件,包括Hadoop、Spark、HBase、Hive等。以下将详细介绍这些技术的安装与配置过程。 首先,搭建开发环境通常从软件下载开始,这里可能包括虚拟机管理器(如...
在Windows环境下搭建Eclipse的Hadoop开发环境是一个重要的步骤,对于大数据开发人员来说,这是进行Spark和Hadoop项目开发的基础。以下将详细讲解这个过程,以及如何利用ECLIPSE大数据开发插件来优化配置。 首先,...
1. 安装Java:Hadoop是用Java编写的,因此需要先在系统上安装Java运行环境(JRE)和Java开发工具(JDK)。 2. 下载Hadoop:从Apache官方网站获取最新稳定版本的Hadoop,并解压到指定目录。 3. 配置环境变量:将...
总的来说,搭建Openfire与Spark环境需要对Eclipse项目管理和Java开发有一定的了解,同时对即时通讯系统的运行机制要有基本的认识。虽然过程可能稍显繁琐,但只要按照上述步骤操作,就能成功建立一个本地即时通讯环境...
本文将详细介绍如何在IDE环境下搭建Spark与Hadoop的集成环境。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成。HDFS是分布式文件系统,用于存储...
Eclipse则是一款广泛使用的Java集成开发环境(IDE),适用于各种Java应用和框架的开发,包括Hadoop。 1. **安装Java**: 开发Hadoop应用需要Java环境,因此首先确保系统上安装了Java Development Kit (JDK)。安装...
这个压缩包“eclipse2019.zip”包含了一个针对Linux平台的Eclipse安装程序,即“eclipse-inst-linux64.tar.gz”,这使得在Linux系统上搭建Java开发环境变得简单易行。 Eclipse作为开源软件,深受全球开发者喜爱,其...
在 Eclipse 3.5.2 中创建一个新的 Java 项目来承载 Openfire 的源代码: 1. **创建项目**:依次点击 File → New → Project → Java Project。在新窗口中输入项目名称为“Openfire”,并选择“Create project from...
总结来说,要搭建Scala、Eclipse和Maven的开发环境,你需要安装Eclipse和Scala IDE插件,配置Maven,创建Maven Scala项目,并在`pom.xml`中管理依赖。这个环境能够支持你进行高效的Scala开发,利用Maven自动化构建...
在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...
本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一个简单的WordCount示例来验证环境是否搭建成功。 #### 相关软件与环境配置 在开始之前,我们需要准备以下软件: - **操作系统**:推荐使用Ubuntu(也...
在"老汤spark开发.zip"这个压缩包中,我们主要关注的是如何在Windows环境下搭建Spark开发环境,这对于想要入门或者深入学习Spark的开发者至关重要。 首先,Spark开发环境的搭建涉及以下几个关键步骤: 1. **安装...
6. **Eclipse**:Eclipse是一个广泛使用的集成开发环境(IDE),支持Java开发。在大数据领域,Eclipse可以配合插件如Hadoop插件,用于开发和调试Hadoop MapReduce程序。 7. **Spark**:Spark是大数据处理的另一种...
总结来说,通过Eclipse的Hadoop2.7插件和Hadoop-common编译文件,开发者可以在Windows环境下搭建一个功能强大的Hadoop和Spark集成开发环境,方便地进行大数据处理应用的开发和调试。这对于理解和掌握Hadoop和Spark的...
6. Eclipse:Java集成开发环境,可用于编写MapReduce程序。 三、相关架构搭建 在搭建Hadoop环境时,首先需要创建虚拟机并安装操作系统,如Ubuntu。然后,配置虚拟机的网络设置,使本地主机能通过SSH连接到虚拟机。...
这些操作确保了系统的稳定性和高效性,使得开发人员可以在良好的环境中进行大规模数据处理的工作。需要注意的是,在实际部署过程中,还需要根据具体的业务需求对配置进行调整优化,以达到最佳效果。
通过使用Xshell等工具,开发者可以在本地机器上与远程虚拟机进行交互,实现开发环境的搭建和维护。如果你是一位在CentOS上进行Java或Hadoop相关开发的程序员,这个Eclipse版本将是一个非常实用的工具。
本文将详细讲解如何搭建 Kafka 开发环境,包括 Scala 环境的配置、Eclipse 中的 Scala 开发环境安装以及依赖包的管理。 首先,你需要对 Kafka 的功能有基本的了解,理解其分布式工作原理。Kafka 通常作为日志系统...