本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- xiangjie88
- wiseboyloves
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- lemonhandsome
- jh108020
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- zhanjia
- lzyfn123
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- daizj
- hanbaohong
- 喧嚣求静
- johnsmith9th
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- kristy_yy
- lich0079
- jveqi
- java-007
- sunj
最新文章列表
spark集群使用hanlp进行分布式分词操作说明
本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自【qq_33872191】的博客,感谢分享!以下为全文:
分两步:
第一步:实现hankcs.hanlp/corpus.io.IIOAdapter
spark 集群环境搭建
需要的环境:
1.java1.8
2.hadoop-3.1.1(spark用到他的hdfs)
3.zookeeper-3.4.11(spark自动转移master用)
4.spark-2.3.1-bin-without-hadoop
三台服务器主机分别是
host-01
host-02
host-03
关键配置:
hadoop
hadoop/hadoop-3.1 ...
全面深度剖析Spark2--知识点,源码,调优,JVM,图计算,项目
全面深度剖析Spark2--知识点,源码,调优,JVM,图计算,项目
网盘地址:https://pan.baidu.com/s/1EmLNOh3Z7b9716QChR1wqA 密码:dw52
备用地址(腾讯微云):https://share.weiyun.com/5PeYrbv 密码:v5cipf
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark是UC Be ...
spark 连kafka_2.10-0.10.0.0
包:
chill_2.11-0.8.0.jar
commons-collections-3.2.2.jar
commons-configuration-1.6.jar
commons-lang-2.6.jar
commons-lang3-3.5.jar
commons-logging-1.1.3.jar
guava-14.0.1.jar
hadoop-auth-2.6.4.jar
hadoop-co ...
spark - RDD转成DataFrame
1.RDD转成DataFrame的两种方式:
package df
import org.apache.spark.sql.{Row, SparkSession}
object RDD2DataFrame {
case class Person(name: String, score: Int)
def main(args: Array[String]): Uni ...
哪些场景可以用到Spark?
Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下:
1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小;
2. 由于RDD的特性,Spark不适 ...