spark热门博客列表 - ITeye博客频道 - 第2页

博客专栏推荐

本月博客排行

第1名
wy_19921005
第2名
mft8899
第3名
java-007
Anmin
benladeng5225

年度博客排行

spark集群使用hanlp进行分布式分词操作说明

本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作，文章整理自【qq_33872191】的博客，感谢分享！以下为全文：分两步：第一步：实现hankcs.hanlp/corpus.io.IIOAdapter

spark

adnb34g 评论(0) 有691人浏览 2019-01-21 10:33

上次ITEYE大规模的信息被盗之后所有的文章都被清除了,很久都没有写相关的文章来记录自己的学习轨迹,最近开始学大数据+机器学习相关的内容,主要是需要一个推荐系统,主要分为离线任务(根据用户行为对主题关键字的权重进行计算训练相关的LDA模型和词袋,可以通过spark MLLib的ALS协同过滤算法训练相关的模型然后更新每个用户的主题关键字权重模型)这部分主要是一个离线的定时任务,还有在线的任务根据用户 ...

ML spark ALS oryx2

wangkooler 评论(0) 有393人浏览 2018-11-09 16:10

spark 集群环境搭建

需要的环境： 1.java1.8 2.hadoop-3.1.1（spark用到他的hdfs） 3.zookeeper-3.4.11（spark自动转移master用） 4.spark-2.3.1-bin-without-hadoop 三台服务器主机分别是 host-01 host-02 host-03 关键配置： hadoop hadoop/hadoop-3.1 ...

hadoop spark

278653219 评论(0) 有577人浏览 2018-08-15 17:33

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

安装虚拟机安装文件：CentOS-6.6-x86_64-bin-DVD1.iso 自定义硬件内存增加到8G，处理器修改为4核自动安装永久修改hostname

大数据 hadoop hive hbase spark

cboss8 评论(0) 有820人浏览 2018-08-08 10:17

spark学习笔记【一】- 搭建spark开发环境【原创】

在去年写完大数据学习笔记（七）-运行spark脚本【原创】之后，由于工作比较忙，且大数据在负责的项目中一时用不上，所以没有继续学习。这一篇是新的开始，主要学习使用spark的进行开发。 spark的源码是scala写的，scala是与Java很像的一种语言，也是基于jvm运行的。spark提供了scala和java的开发包，因此可以使用java和scala来开发spark应 ...

spark java scala 环境搭建

zhenggm 评论(0) 有1052人浏览 2018-08-07 17:04

深度:Hadoop对Spark五大维度正面比拼！

每年，市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中，Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你? 如果想批处理流量数据，并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会更好地满足您的需求吗? 为了增加混淆，Spark和Hadoop经常与位于HDF ...

Hadoop spark 对比大数据框架

飞鱼德蒙评论(0) 有632人浏览 2018-06-05 19:23

全面深度剖析Spark2--知识点，源码，调优，JVM，图计算，项目

全面深度剖析Spark2--知识点，源码，调优，JVM，图计算，项目网盘地址：https://pan.baidu.com/s/1EmLNOh3Z7b9716QChR1wqA 密码：dw52 备用地址（腾讯微云）：https://share.weiyun.com/5PeYrbv 密码：v5cipf Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Be ...

spark

uvilskyw 评论(0) 有177人浏览 2018-05-28 14:48

spark 连kafka_2.10-0.10.0.0

包： chill_2.11-0.8.0.jar commons-collections-3.2.2.jar commons-configuration-1.6.jar commons-lang-2.6.jar commons-lang3-3.5.jar commons-logging-1.1.3.jar guava-14.0.1.jar hadoop-auth-2.6.4.jar hadoop-co ...

kafka spark

jybbh 评论(0) 有1114人浏览 2018-05-25 17:36

Liunx搭建Spark开发环境

Liunx搭建Spark开发环境 1.Spark 2.Spark开发环境搭建【1】Spark开发环境搭建需要Hadoop，Java,Scala环境的支持，由于本机已经默认安装Java 和Hadoop开发环境，这里也不再赘述【2】搭建Scala开发环境和SBT开发环境：（2.1）下载Scala和SBT安装包： Scala官网：http://www. ...

大数据 Spark scala

马智霖评论(0) 有659人浏览 2018-04-29 21:00

大数据开发工具有哪些？

大数据开发工具有哪些？大数据研究的出现，为企业、研究机构、政府决策提供了新的行之有效思路和手段，想要做好大数据的管理和分析，一些大数据开发工具的使用是必不可少的，以下是大数据开发过程中常用的工具： 1. Apache Hive Hive是一个建立在Hadoop上的开源数据仓库基础设施，通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处 ...

大数据开发 spark Hadoop

mo默羽评论(0) 有542人浏览 2018-04-11 18:13

spark - RDD转成DataFrame

1.RDD转成DataFrame的两种方式： package df import org.apache.spark.sql.{Row, SparkSession} object RDD2DataFrame { case class Person(name: String, score: Int) def main(args: Array[String]): Uni ...

spark RDD转成DataFrame

功夫小当家评论(0) 有2933人浏览 2018-04-07 17:37

大数据开发都需要什么技术？

　　　　大数据是对海量数据存储、计算、统计、分析等一系列处理手段，处理的数据量是TB级，甚至是PB或EB级的数据，是传统数据处理手段无法完成 ...

大数据大数据开发 Hadoop Spark

mo默瑶评论(0) 有318人浏览 2018-04-03 17:17

大数据开发都需要什么技术？

　　　　大数据是对海量数据存储、计算、统计、分析等一系列处理手段，处理的数据量是TB级，甚至是PB或EB级的数据，是传统数据处理手段无法完成 ...

大数据开发大数据 Hadoop Spark

mo默芯评论(0) 有381人浏览 2018-04-03 17:10

浅聊Spark的应用场景有哪些？

　　　　Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态� ...

大数据大数据开发 Spark

mo默芯评论(0) 有671人浏览 2018-04-03 17:08

浅聊Spark的应用场景有哪些？

　　　　Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态� ...

Spark 大数据大数据开发

mo默瑶评论(0) 有390人浏览 2018-04-03 17:04

大数据开发都需要什么技术？

　　　　大数据是对海量数据存储、计算、统计、分析等一系列处理手段，处理的数据量是TB级，甚至是PB或EB级的数据，是传统数据处理手段无法完成的，大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等，汇集的是IT最热门、最流行的IT技术，大数据是机器学习、深度学习、AI等尖端可以领域的基础架构。　　大数据技术为决策提供依据，在政府、企业、科研项目等决策中扮演着重要的角色， ...

大数据开发 Hadoop Spark

mo默羽评论(0) 有360人浏览 2018-04-03 16:52

浅聊Spark的应用场景有哪些？

　　　　Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态 ...

Spark 大数据开发大数据 Hadoop

mo默羽评论(0) 有520人浏览 2018-04-03 16:48

哪些场景可以用到Spark？

Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态系统，主要应用场景如下： 1. Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小； 2. 由于RDD的特性，Spark不适 ...

Spark

lnh2017 评论(0) 有17人浏览 2018-04-03 15:56

« 上一页 1 2 3 … 22 23 下一页 »

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

spark集群使用hanlp进行分布式分词操作说明

Oryx2初窥

spark 集群环境搭建

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

spark学习笔记【一】- 搭建spark开发环境【原创】

深度:Hadoop对Spark五大维度正面比拼！

全面深度剖析Spark2--知识点，源码，调优，JVM，图计算，项目

spark 连kafka_2.10-0.10.0.0

Liunx搭建Spark开发环境

大数据开发工具有哪些？

spark - RDD转成DataFrame

大数据开发都需要什么技术？

大数据开发都需要什么技术？

浅聊Spark的应用场景有哪些？

浅聊Spark的应用场景有哪些？

大数据开发都需要什么技术？

浅聊Spark的应用场景有哪些？

哪些场景可以用到Spark？

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论