最新文章列表

【赵强老师】阿里云大数据ACP认证之阿里大数据产品体系

阿里大数据产品体系是基于阿里云飞天平台上的数据处理服务。主要分为阿里云大数据基础产品和阿里云数加平台,其产品架构图如下所示: 一、阿里云大数据基础产品 1、云数据库——RDS(ApsaraDB for RDS的简称) 稳定可靠、可弹性伸缩的在线数据库服务 即开即用,DMS可视化界面 兼容MySQL,SQL server,PG等关系型数据库 提供数据库在线扩容,备份回滚,性能监 ...
collen7788 评论(0) 有520人浏览 2021-02-23 09:31

【赵强老师】Flink的DataSet算子

Flink为了能够处理有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。 下面我们通过具体的代码来为大家演示每个算子的作用。 1、Map、FlatMap与MapPartition //获取运行环境 Executio ...
collen7788 评论(0) 有450人浏览 2020-10-09 13:44

那些在CDH5中是bug,到了CDH6版本就修复了的问题

盘点那些在CDH5中是bug,到了CDH6版本就修复了的问题。涉及到Hadoop、HDFS、YARN、HBASE、hive、hue、impala、kudu、oozie、solr、spark、kafka、parquet、zookeeper等组件。如果你的集群问题是被列出的这些,那么升级是可以解决问题的。 列出的只是部分的一百多个问题,Cloudera今年年底会停止CDH5的支持,对于CDH5的用户来说 ...
ClouderaHadoop 评论(0) 有844人浏览 2020-09-27 15:46

spark3.0基于hadoop2.6.0编译问题

        spark3.0出来一段时间了,内部做了很多的优化,所以想尝尝新。           下载下来spark3.0的源码,查看pom.xml文件,发现profile中的hadoop版本是2.7,所以把这个属性改成2.6, 当然我们是cdh5.14.2,hadoop版本是2.6.0。开始编译,发现编译报错,这是因为在2.6.0到2.6.3hadoop中有个class在之后的版本变 ...
tangjunliang 评论(0) 有737人浏览 2020-09-15 14:30

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/

从spark2.4升级到spark3.0,在跑spark任务的时候,报了一下错误: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/internal/connector/SimpleTableProvider at java.lang.ClassLoader.de ...
tangjunliang 评论(0) 有1371人浏览 2020-09-14 18:31

工作n年,技术积累传授何人?

工作n年,技术积累传授何人? 如果有兴趣的,可以留言。 工作n年,技术积累传授何人? 如果有兴趣的,可以留言。 工作n年,技术积累传授何人? 如果有兴趣的,可以留言。 工作n年,技术积累传授何人? 如果有兴趣的,可以留言。 工作n年,技术积累传授何人? 如果有兴趣的,可以留言。 工作n年,技术积累传授何人? 如果有兴趣的,可以留言。 工作n年,技术积累传授何人? 如 ...
男人50 评论(0) 有539人浏览 2020-09-02 15:59

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下, ...
collen7788 评论(0) 有461人浏览 2020-07-20 08:56

【赵强老师】什么是Spark SQL?

一、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所 ...
collen7788 评论(0) 有424人浏览 2020-07-02 16:34

Jerry's spark demo application

Java应用程序入口: 输入一个文本文件,这个Java应用会利用Spark的大数据处理功能,迅速统计出这个文本文件里每个单词出现的次数,按从高到低排序。 因为Spark的核心代码是Scala编写,因此也能直接在Scala控制台里演示这个demo:   这个demo演示的命令行:  
JerryWang_SAP 评论(0) 有391人浏览 2020-07-02 15:05

【赵强老师】大数据工作流引擎Oozie

一、什么是工作流? 工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型 ...
collen7788 评论(0) 有455人浏览 2020-06-28 13:13

【赵强老师】在Hive中使用Load语句加载数据

一、Hive中load语句的语法说明 Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \ [PARTITION (partcol1=val1, partcol2=val2 ...
collen7788 评论(0) 有543人浏览 2020-05-22 11:32

https://github.com/brucevsked/vskeddemolist

https://github.com/brucevsked/vskeddemolist
vsked 评论(0) 有620人浏览 2020-05-13 15:36

【赵强老师】如何分析Java的内存溢出问题

一、什么是内存溢出? 内存溢出(OOM:out of memory)通俗理解就是内存不够,通常在运行大型软件或游戏时,软件或游戏所需要的内存远远超出了你主机内安装的内存所承受大小,就叫内存溢出。 在Java中,将会产生java.lang.OutOfMemoryError。看下关于的官方说明: Thrown when the Java Virtual Machine cannot allo ...
collen7788 评论(0) 有645人浏览 2020-05-13 10:56

【赵强老师】大数据分析引擎:Presto

一、什么是Presto?   背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive ...
collen7788 评论(0) 有404人浏览 2020-04-09 11:43

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics