本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- ranbuijj
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- lzyfn123
- forestqqqq
- zhanjia
- johnsmith9th
- nychen2000
- ajinn
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
【赵强老师】阿里云大数据ACP认证之阿里大数据产品体系
阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务。主要分为阿里云大数据基础产品和阿里云数加平台,其产品架构图如下所示:
一、阿里云大数据基础产品
1、云数据库——RDS(ApsaraDB for RDS的简称)
稳定可靠、可弹性伸缩的在线数据库服务
即开即用,DMS可视化界面
兼容MySQL,SQL server,PG等关系型数据库
提供数据库在线扩容,备份回滚,性能监 ...
【赵强老师】Flink的DataSet算子
Flink为了能够处理有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。
下面我们通过具体的代码来为大家演示每个算子的作用。
1、Map、FlatMap与MapPartition
//获取运行环境
Executio ...
那些在CDH5中是bug,到了CDH6版本就修复了的问题
盘点那些在CDH5中是bug,到了CDH6版本就修复了的问题。涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。如果你的集群问题是被列出的这些,那么升级是可以解决问题的。
列出的只是部分的一百多个问题,Cloudera今年年底会停止CDH5的支持,对于CDH5的用户来说 ...
spark3.0基于hadoop2.6.0编译问题
spark3.0出来一段时间了,内部做了很多的优化,所以想尝尝新。
下载下来spark3.0的源码,查看pom.xml文件,发现profile中的hadoop版本是2.7,所以把这个属性改成2.6, 当然我们是cdh5.14.2,hadoop版本是2.6.0。开始编译,发现编译报错,这是因为在2.6.0到2.6.3hadoop中有个class在之后的版本变 ...
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/
从spark2.4升级到spark3.0,在跑spark任务的时候,报了一下错误:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/internal/connector/SimpleTableProvider
at java.lang.ClassLoader.de ...
【赵强老师】什么是Spark SQL?
一、Spark SQL简介
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所 ...
Jerry's spark demo application
Java应用程序入口:
输入一个文本文件,这个Java应用会利用Spark的大数据处理功能,迅速统计出这个文本文件里每个单词出现的次数,按从高到低排序。
因为Spark的核心代码是Scala编写,因此也能直接在Scala控制台里演示这个demo:
这个demo演示的命令行:
【赵强老师】在Hive中使用Load语句加载数据
一、Hive中load语句的语法说明
Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下:
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \
[PARTITION (partcol1=val1, partcol2=val2 ...
【赵强老师】如何分析Java的内存溢出问题
一、什么是内存溢出?
内存溢出(OOM:out of memory)通俗理解就是内存不够,通常在运行大型软件或游戏时,软件或游戏所需要的内存远远超出了你主机内安装的内存所承受大小,就叫内存溢出。
在Java中,将会产生java.lang.OutOfMemoryError。看下关于的官方说明: Thrown when the Java Virtual Machine cannot allo ...