最新文章列表

hive 文件分割的一些经验

最近在工作中用到了hive,因数据量大,需要将hive的文件进行分割:   hive的分割方式一,用tasks进行分割: execute immediate 'set mapred.reduce.tasks=5' 这种分割方式有时会失效,可用下面的分割方式,   hive的分割方式二:  execute immediate 'set hive.merge.size.per.task ...
hlsps 评论(0) 有873人浏览 2022-01-13 15:35

SQLLineage.com(分析SQL的数据血缘关系)

数据的生产就像淘金,生产的步骤繁琐还需消耗大量的计算资源。而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑, 分层数仓的设计简化了单层数据模型的设计,但增加了额外的计算资源消耗,当出现数据质量问题时更是质控者的噩梦。梳理清楚数据的来源、经过那些处理步骤、数据间存在那些引用和依赖的关系,这些信息归纳起来就是数据的血缘关系。而SQL强大的描述能力被广泛的应用在各种数据工具,分析SQL的AS ...
ding__lin 评论(0) 有1124人浏览 2021-08-20 14:52

【赵强老师】在Hive中使用Load语句加载数据

一、Hive中load语句的语法说明 Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下: LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \ [PARTITION (partcol1=val1, partcol2=val2 ...
collen7788 评论(0) 有537人浏览 2020-05-22 11:32

【赵强老师】大数据分析引擎:Presto

一、什么是Presto?   背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive ...
collen7788 评论(0) 有399人浏览 2020-04-09 11:43

linux pig 安裝使用

  0.准备工作 hadoop 服务器 10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master 10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2 10.156.50.37 yanfabu2-37.base.app.dev.yf zk3 ...
knight_black_bob 评论(0) 有1681人浏览 2019-06-14 09:52

sqoop2 安装 与使用

  0.准备工作 hadoop 服务器 10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master 10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2 10.156.50.37 yanfabu2-37.base.app.dev.yf zk3 ...
knight_black_bob 评论(0) 有929人浏览 2019-06-05 13:55

[sqoop1 error] java.lang.ClassNotFoundException org.apache.hadoop.hive.conf.Hiv

    问题: [zkkafka@yanfabu2-37 ~]$ sqoop import \ > --connect jdbc:mysql://10.156.50.36:3306/mqh \ > --username root \ > --password root \ > --table device \ > --fields-terminated ...
knight_black_bob 评论(0) 有881人浏览 2019-06-03 13:28

hive-ha 安装

hive-ha 安装     0.准备工作 hadoop 服务器   10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master 10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2 10.156.50.37 yanfabu2-37.ba ...
knight_black_bob 评论(0) 有904人浏览 2019-05-29 10:12

[hive error] check the manual that corresponds to your MySQL server version for

问题 [zkkafka@yanfabu2-36 tmp]$ schematool -dbType derby -initSchema SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/zkkafka/hive/lib/log4j-slf4j-impl-2.6 ...
knight_black_bob 评论(0) 有1317人浏览 2019-05-20 17:51

[hive error ] You need either to explicitly disable SSL by setting useSSL=false

问题   SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/home/zkkafka/hive/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found ...
knight_black_bob 评论(0) 有1702人浏览 2019-05-20 17:49

hadoop之hive部署

1、解压 tar -zxvf Downloads/apache-hive-3.1.1-bin.tar.gz -C applications/ 2、建软连接 ln -s apache-hive-3.1.1-bin hive 3、驱动包mysql-connector-java-5.1.27.jar放在/lib cp ~/Downloads/mysql-connector-java-5.1.4 ...
flylynne 评论(0) 有736人浏览 2019-04-06 11:10

异常-hsql 小文件过多

1.背景:    hive  做 insert overwrite select * from table 操作    出现异常:    [Fatal Error] total number of created files now is 100028, which exceeds 100000. Killing the job.   2.实际默认限制:    hive> set ...
greemranqq 评论(0) 有811人浏览 2019-04-02 15:05

hive 3.x 功能介绍

这个版本中有什么新东西:Apache Hive hvie 3.1包括物化视图的分区,这可以提高查询响应能力和维护修复。 工作量管理 使用工作负载管理,您可以配置 ...
smileyboy2009 评论(0) 有1280人浏览 2018-11-08 17:30

hive 3.x 比hive2 性能提高2-50倍,支持增删改查ACID

Apache Hive 3.x 架构介绍hive 的更新操作一直是大数据仓库头痛的问题,在3.x之前也支持update,但是速度太慢,还需要进行分桶,现在hive 支持全新ACID,并且 ...
smileyboy2009 评论(0) 有6782人浏览 2018-11-08 17:12

sqoop导入数据脚本

sqoop export \ -D mapred.job.queue.name=hive_user \ --connect jdbc:mysql://${host}:${port}/${db} \ --username ${username} \ --password ${password} \ --tab ...
aeolus1983 评论(0) 有2503人浏览 2018-09-30 11:14

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

安装虚拟机 安装文件:CentOS-6.6-x86_64-bin-DVD1.iso                       自定义硬件 内存增加到8G,处理器修改为4核   自动安装 永久修改hostname
cboss8 评论(0) 有761人浏览 2018-08-08 10:17

BGT之Hive之HA

*、项目中遇到Hive需要配置HA的需求,于是查了一下,总结为修改hive-size.xml中添加相应的配置即可,在cdh管理中,找到两台角色类型为hiveserver2的服务器,然后分别找到hive-site.xml配置页添加相应配置即可,详细如下: <property> <name>hive.server2.support.dynamic.service.disc ...
lBovinl 评论(0) 有531人浏览 2018-06-21 13:55

Hadoop之Hive

Hive基本介绍 查询管理存储在HDFS中的大数据集合,提供像SQL的查询语句HiveQL。Hive表的元数据存储在Derby数据库中,Mysql和Oracle也可以作为Hive的存储源 Hive操作 use:切换数据库   hive> use default; OK Time taken: 0.454 seconds hive> show tables; OK ...
theseus 评论(0) 有923人浏览 2018-06-17 18:00

hive转换科学计数法

    hive中的科学计数法如何转换回数字,搜了半天终于找到了一篇好文章,这里记录转换代码为自己日后参考。(转自:https://blog.csdn.net/zreodown/article/details/15506637) case   --处理非科学计数法表示的字符串   when length(regexp_extract('字符串','([0-9]+\\.)([0-9]+)(E-* ...
lucizhang 评论(0) 有3294人浏览 2018-05-31 18:37

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics