`
k_lb
  • 浏览: 834050 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论
  • kitleer: 据我所知,国内有款ETL调度监控工具TaskCTL,支持ket ...
    kettle调度

HIVE 数据操作 DML

 
阅读更多

Loading Data into Managed Tables -- 加载数据到表

LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'
OVERWRITE INTO TABLE employees
PARTITION (country = 'US', state = 'CA');

LOAD DATA LOCAL ... copies the local data to the final location in the
distributed filesystem, while LOAD DATA ... (i.e., without LOCAL) moves
the data to the final location.


Inserting Data into Tables from Queries -- 加载数据从查询语句到表


INSERT OVERWRITE TABLE employees
PARTITION (country = 'US', state = 'OR')
SELECT * FROM staged_employees se
WHERE se.cnty = 'US' AND se.st = 'OR';

FROM staged_employees se
INSERT OVERWRITE TABLE employees
  PARTITION (country = 'US', state = 'OR')
  SELECT * WHERE se.cnty = 'US' AND se.st = 'OR'
INSERT OVERWRITE TABLE employees
  PARTITION (country = 'US', state = 'CA')
  SELECT * WHERE se.cnty = 'US' AND se.st = 'CA'
INSERT OVERWRITE TABLE employees
  PARTITION (country = 'US', state = 'IL')
  SELECT * WHERE se.cnty = 'US' AND se.st = 'IL';

Dynamic Partition Inserts --动态分区


INSERT OVERWRITE TABLE employees
PARTITION (country, state)
SELECT ..., se.cnty, se.st
FROM staged_employees se;

INSERT OVERWRITE TABLE employees
PARTITION (country = 'US', state)
SELECT ..., se.cnty, se.st
FROM staged_employees se
WHERE se.cnty = 'US';



hive> set hive.exec.dynamic.partition=true;
hive> set hive.exec.dynamic.partition.mode=nonstrict;
hive> set hive.exec.max.dynamic.partitions.pernode=1000;
hive> INSERT OVERWRITE TABLE employees
    > PARTITION (country, state)
    > SELECT ..., se.cty, se.st
    > FROM staged_employees se;


Creating Tables and Loading Them in One Query --一个查询语句创建表


CREATE TABLE ca_employees
AS SELECT name, salary, address
FROM employees
WHERE se.state = 'CA';

Exporting Data --导出数据


INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees'
SELECT name, salary, address
FROM employees
WHERE se.state = 'CA';

导出多个文件

FROM staged_employees se
INSERT OVERWRITE DIRECTORY '/tmp/or_employees'
  SELECT * WHERE se.cty = 'US' and se.st = 'OR'
INSERT OVERWRITE DIRECTORY '/tmp/ca_employees'
  SELECT * WHERE se.cty = 'US' and se.st = 'CA'
INSERT OVERWRITE DIRECTORY '/tmp/il_employees'
  SELECT * WHERE se.cty = 'US' and se.st = 'IL';


分享到:
评论

相关推荐

    Hive之DML数据操作

    Hive简介:...Hive数据类型: https://blog.csdn.net/weixin_45102492/article/details/91048019 Hive之DDL数据定义: https://blog.csdn.net/weixin_45102492/article/details/91349323 Hive

    hive 表 dml 操作.zip

    在实际工作中,理解并熟练运用这些Hive的DML操作,能够有效地管理和分析大数据集。对于“产品说明.zip”和“文档.pdf”,它们可能包含了更深入的操作指南、示例代码以及最佳实践,帮助用户更好地理解和应用Hive的DML...

    大数据学习:Hive数据操作语言.pdf

    "大数据学习:Hive数据操作语言" Hive是基于Hadoop的大数据仓库管理系统,提供了类SQL的数据操作语言DML,用于操作数据表中的数据,例如数据的加载、查询和插入等操作。下面是Hive数据操作语言的详细讲解: 加载...

    hive 表 dml 操作.md

    在 Hive 中,可以使用 DML(数据操作语言)来对表进行增删改操作。

    hive实验报告.docx

    - DML操作包括查看表、查看表结构,以及插入、更新和删除数据。 - 分区表的创建有助于数据管理和查询优化,可以根据特定字段进行数据划分。 4. **Hive与MySQL的交互**: - Hive可以通过JDBC连接MySQL数据库,...

    第3章 HiveSQL 数据操控、查询语言(DML、DQL)1

    本章节重点讨论HiveSQL中的DML操作,特别是加载数据到Hive表的过程。 首先,当我们创建一个Hive表后,Hive会在HDFS(Hadoop分布式文件系统)上建立一个与该表对应的文件夹。默认的存储位置由参数`hive.metastore....

    Hive数据仓库全流程开发

    ### Hive数据仓库全流程开发知识点详解 #### 一、Hive数据仓库概述 - **Hive简介**: - **起源**:Hive是由Facebook开源的一个数据仓库工具,最初设计用于解决海量结构化日志数据的统计问题。 - **功能**:它允许...

    分布式数据仓库Hive大全

    8.5 DML操作 44 8.6 HAVING 44 8.7 子查询 44 8.8 Join中处理null值的语义区别 44 9. 优化与技巧 47 9.1 全排序 47 9.1.1 例1 48 9.1.2 例2 51 9.2 怎样做笛卡尔积 54 9.3 怎样写exist/in子句 54 9.4 怎样决定...

    Hive大数据仓库-笔记整理 (一)2020年最新版.pdf

    4. **Hive数据类型**:Hive支持多种数据类型,包括基本类型(如STRING, INT, BOOLEAN)和复杂类型(如ARRAY, MAP, STRUCT)。 5. **HQL语法**:HQL支持SELECT, FROM, WHERE, GROUP BY, JOIN等SQL关键字,允许用户...

    HIVE从入门到精通.pdf

    - **集成优势**:Hive与HBase的集成使得Hive可以直接访问HBase中的数据,并使用HQL进行查询,极大地提高了数据访问的灵活性和效率。 - **集成步骤**:需要在Hive中配置相应的连接器,以便能够识别HBase表结构并进行...

    Hadoop数据仓库--hive介绍

    - DML(Data Manipulation Language):主要用于数据的插入、更新和删除操作,Hive 的 DML 功能相对有限,主要集中在查询和聚合上。 1.4 其他功能 - 支持 ALTER TABLE 添加列。 - 分区功能:允许根据特定字段(如...

    快速学习-DML数据操作

    第 5 章 DML数据操作 5.1 数据导入 5.1.1 向表中装载数据(Load) 语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1,…)]; (1...

    大数据学习指南合集(Hadoop、Spark、Flink等)

    大数据框架组件 含Hadoop、Spark、Flink等大数据书籍 一、Hadoop   1. Hadoop——分布式文件管理...  2.Hive——Hive数据类型   3.Hive——Hive DDL数据定义   4.Hive——Hive DML数据操作   5.Hive——Hive查询

    Hive-工具篇_hive_

    2. **Hive数据建模** - **表的创建**:Hive中的表可以分为分区表和非分区表,分区有助于提高查询效率,将大表划分为更小、更易管理的部分。 - **数据类型**:Hive支持多种数据类型,包括基本类型(如STRING、INT、...

    hive的学习资料

    【Hive 学习资料】 Hive 是一个基于 Hadoop 的数据仓库系统,它主要设计用于处理和管理大规模数据集。Hive 提供了一个类似 SQL 的查询语言...了解和掌握 Hive 的核心概念、操作和优化策略是大数据分析中的重要一环。

    Hive介绍(百度)

    - **DML(Data Manipulation Language)**:尽管Hive支持的DML操作有限,但可以执行插入、更新和删除等操作。 4. **Hive操作示例** - 加载数据:`LOAD DATA LOCAL INPATH '/logs/urls.txt' INTO TABLE urls ...

    apache-atlas-2.0.0-hive-hook ,亲测有用!

    Hive Hook 是Apache Atlas 提供的一种机制,用于在Hive 执行DDL(数据定义语言)和DML(数据操纵语言)操作时触发Atlas 的元数据事件,从而实现实时的元数据跟踪和管理。 在Apache Atlas 2.0.0 中,Hive Hook 主要...

    Hadoo数据仓库-hive入门全面介绍

    5. **简化大数据操作**:Hive 提供了创建表、加载数据、查询数据以及更新数据的能力,这些操作对于非 Java 开发者来说更为友好。 6. **支持分区和桶**:通过分区,用户可以更高效地查询大规模数据,因为只需要扫描...

    Hive用户指南 Hive user guide 中文版

    - **DML操作**:Hive不支持标准的DML操作,如UPDATE和DELETE。 - **HAVING子句**:HAVING子句用于过滤聚合后的结果。 - **子查询**:子查询可以嵌套在其他查询中,但需要注意性能问题。 - **处理NULL值**:JOIN操作...

    Atlas Spark SQL血缘分析,Hive Hook

    4. **执行Spark SQL操作**:当Spark SQL通过Hive接口执行DML(Data Manipulation Language)或DDL(Data Definition Language)操作时,Hive Hook会捕获这些操作的元数据变更。 5. **血缘信息收集和存储**:捕获的...

Global site tag (gtag.js) - Google Analytics