最新文章列表

spark集群使用hanlp进行分布式分词操作说明

本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自【qq_33872191】的博客,感谢分享!以下为全文:   分两步: 第一步:实现hankcs.hanlp/corpus.io.IIOAdapter      
adnb34g 评论(0) 有678人浏览 2019-01-21 10:33

Oryx2初窥

上次ITEYE大规模的信息被盗之后所有的文章都被清除了,很久都没有写相关的文章来记录自己的学习轨迹,最近开始学大数据+机器学习相关的内容,主要是需要一个推荐系统,主要分为离线任务(根据用户行为对主题关键字的权重进行计算训练相关的LDA模型和词袋,可以通过spark MLLib的ALS协同过滤算法训练相关的模型然后更新每个用户的主题关键字权重模型)这部分主要是一个离线的定时任务,还有在线的任务根据用户 ...
wangkooler 评论(0) 有375人浏览 2018-11-09 16:10

spark 集群环境搭建

需要的环境: 1.java1.8 2.hadoop-3.1.1(spark用到他的hdfs) 3.zookeeper-3.4.11(spark自动转移master用) 4.spark-2.3.1-bin-without-hadoop   三台服务器主机分别是 host-01 host-02 host-03   关键配置: hadoop hadoop/hadoop-3.1 ...
278653219 评论(0) 有570人浏览 2018-08-15 17:33

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

安装虚拟机 安装文件:CentOS-6.6-x86_64-bin-DVD1.iso                       自定义硬件 内存增加到8G,处理器修改为4核   自动安装 永久修改hostname
cboss8 评论(0) 有793人浏览 2018-08-08 10:17

spark学习笔记【一】- 搭建spark开发环境【原创】

    在去年写完大数据学习笔记(七)-运行spark脚本【原创】之后,由于工作比较忙,且大数据在负责的项目中一时用不上,所以没有继续学习。     这一篇是新的开始,主要学习使用spark的进行开发。     spark的源码是scala写的,scala是与Java很像的一种语言,也是基于jvm运行的。spark提供了scala和java的开发包,因此可以使用java和scala来开发spark应 ...
zhenggm 评论(0) 有1022人浏览 2018-08-07 17:04

深度:Hadoop对Spark五大维度正面比拼!

每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你? 如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗?   为了增加混淆,Spark和Hadoop经常与位于HDF ...
飞鱼德蒙 评论(0) 有620人浏览 2018-06-05 19:23

全面深度剖析Spark2--知识点,源码,调优,JVM,图计算,项目

全面深度剖析Spark2--知识点,源码,调优,JVM,图计算,项目 网盘地址:https://pan.baidu.com/s/1EmLNOh3Z7b9716QChR1wqA 密码:dw52 备用地址(腾讯微云):https://share.weiyun.com/5PeYrbv 密码:v5cipf Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark是UC Be ...
uvilskyw 评论(0) 有177人浏览 2018-05-28 14:48

spark 连kafka_2.10-0.10.0.0

包: chill_2.11-0.8.0.jar commons-collections-3.2.2.jar commons-configuration-1.6.jar commons-lang-2.6.jar commons-lang3-3.5.jar commons-logging-1.1.3.jar guava-14.0.1.jar hadoop-auth-2.6.4.jar hadoop-co ...
jybbh 评论(0) 有1100人浏览 2018-05-25 17:36

Liunx搭建Spark开发环境

Liunx搭建Spark开发环境 1.Spark  2.Spark开发环境搭建 【1】Spark开发环境搭建需要Hadoop,Java,Scala环境的支持,由于本机已经默认安装Java 和Hadoop开发环境,这里也不再赘述 【2】搭建Scala开发环境和SBT开发环境:        (2.1)下载Scala和SBT安装包:        Scala官网:http://www. ...
马智霖 评论(0) 有628人浏览 2018-04-29 21:00

大数据开发工具有哪些?

大数据开发工具有哪些? 大数据研究的出现,为企业、研究机构、政府决策提供了新的行之有效思路和手段,想要做好大数据的管理和分析,一些大数据开发工具的使用是必不可少的,以下是大数据开发过程中常用的工具: 1. Apache Hive Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处 ...
mo默羽 评论(0) 有536人浏览 2018-04-11 18:13

spark - RDD转成DataFrame

1.RDD转成DataFrame的两种方式: package df import org.apache.spark.sql.{Row, SparkSession} object RDD2DataFrame { case class Person(name: String, score: Int) def main(args: Array[String]): Uni ...
功夫小当家 评论(0) 有2919人浏览 2018-04-07 17:37

大数据开发都需要什么技术?

     大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成 ...
mo默瑶 评论(0) 有310人浏览 2018-04-03 17:17

大数据开发都需要什么技术?

     大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成 ...
mo默芯 评论(0) 有372人浏览 2018-04-03 17:10

浅聊Spark的应用场景有哪些?

     Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态 ...
mo默芯 评论(0) 有659人浏览 2018-04-03 17:08

浅聊Spark的应用场景有哪些?

     Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态 ...
mo默瑶 评论(0) 有377人浏览 2018-04-03 17:04

大数据开发都需要什么技术?

     大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高并发处理、高可用处理、集群、实时性计算等等,汇集的是IT最热门、最流行的IT技术,大数据是机器学习、深度学习、AI等尖端可以领域的基础架构。     大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色, ...
mo默羽 评论(0) 有355人浏览 2018-04-03 16:52

浅聊Spark的应用场景有哪些?

     Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态 ...
mo默羽 评论(0) 有502人浏览 2018-04-03 16:48

哪些场景可以用到Spark?

Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下: 1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小; 2. 由于RDD的特性,Spark不适 ...
lnh2017 评论(0) 有17人浏览 2018-04-03 15:56

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics