`
chakey
  • 浏览: 363936 次
  • 性别: Icon_minigender_1
  • 来自: 水星
社区版块
存档分类
最新评论

【2】How to load data into Hive

    博客分类:
  • Hive
阅读更多

How to load data into Hive
------------------------
In order to load data into Hive, we need to tell Hive the format of the data
through "CREATE TABLE" statement:

FileFormat: the data has to be in Text or SequenceFile.
Format of the row:
If the data is in delimited format, use MetadataTypedColumnsetSerDe
If the data is in delimited format and has more than 1 levels of delimitor,
use DynamicSerDe with TCTLSeparatedProtocol
If the data is a serialized thrift object, use ThriftSerDe
The steps to load the data:
1 Create a table:

CREATE TABLE t (foo STRING, bar STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;


CREATE TABLE t2 (foo STRING, bar ARRAY<STRING>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
STORED AS TEXTFILE;


CREATE TABLE t3 (foo STRING, bar MAP<STRING,STRING>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
STORED AS TEXTFILE;

CREATE TABLE t4 (foo STRING, bar MAP<STRING,STRING>)
ROW FORMAT SERIALIZER 'org.apache.hadoop.hive.serde2.MetadataTypedColumnsetSerDe'
WITH SERDEPROPERTIES ('columns'='foo,bar','SERIALIZATION.FORMAT'='9');


(RegexDeserializer is not done yet)
CREATE TABLE t5 (foo STRING, bar STRING)
ROW FORMAT SERIALIZER 'org.apache.hadoop.hive.serde2.RegexDeserializer'
WITH SERDEPROPERTIES ('regex'='([a-z]*) ([a-z])');


2 Load the data:
LOAD DATA LOCAL INPATH '../examples/files/kv1.txt' OVERWRITE INTO TABLE t;

How to read data from Hive tables
------------------------
In order to read data from Hive tables, we need to know the same 2 things:

File Format
Row Format
Then we just need to directly open the HDFS file and read the data.

 

CREATE TABLE table1 (a STRING, b STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\'
STORED AS TEXTFILE;


ESCAPED BY 指定转义字符

0
0
分享到:
评论

相关推荐

    hive 驱动包 hive 链接 datagrip的驱动包

    2. **添加Hive驱动**:在DataGrip中,你需要配置一个新的数据库连接。选择“File” -&gt; “Settings” -&gt; “Database” -&gt; “Data Sources and Drivers”。点击"+"按钮,然后选择“Hive”或“Other JDBC”。 3. **...

    Practical.Hive.A.Guide.to.Hadoops.Data.Warehouse.System.1484202724

    From deploying Hive on your hardware or virtual machine and setting up its initial configuration to learning how Hive interacts with Hadoop, MapReduce, Tez and other big data technologies, Practical ...

    DataGrip连接Hive所需jar包

    - URL模板:`jdbc:hive2://&lt;host&gt;:&lt;port&gt;/;&lt;configuration parameters&gt;` - 额外类路径:这里添加你之前下载的`hive-jdbc-*.jar`的路径。 4. **连接设置**:输入Hive服务器的主机名和端口,以及你想要连接的数据库...

    hive3.0以上连接Datagrip所需要的jar包

    2. **Hadoop相关库**: Hive依赖于Hadoop生态系统,因此可能需要Hadoop的相关JAR文件,如`hadoop-common-&lt;version&gt;.jar`,`hadoop-client-&lt;version&gt;.jar`等,以处理HDFS操作和其他Hadoop服务的交互。 3. **Hive ...

    hive1.x版本连接DataGrip需要的jar包

    当我们需要在DataGrip中连接到Hive 1.x版本时,会遇到一些必要的依赖问题,因为DataGrip本身可能不包含所有必需的JAR文件来与特定版本的Hive通信。本文将详细讨论如何准备和配置这些JAR包以实现Hive 1.x与DataGrip的...

    load_data_incr_sqoop (2).zip

    【标题】"load_data_incr_sqoop (2).zip" 提供的是一个使用Sqoop进行增量数据加载的示例。Sqoop是Apache Hadoop生态中的一个工具,专门用于在关系数据库与Hadoop之间高效地传输数据。这个压缩包可能包含了执行增量...

    Hive驱动1.1.0.zip

    本文将详细探讨Hive驱动1.1.0以及如何使用DataGrip进行连接。 首先,Hive驱动是连接Hive服务器并与之通信的关键组件。它实现了Hive的客户端接口,允许Java应用程序,如IDE(集成开发环境)或数据库管理工具,与Hive...

    Practical Hive(Apress,2016)

    Dive into the world of SQL on Hadoop and get the most out of your Hive data warehouses. This book is your go-to resource for using Hive: authors Scott Shaw, Ankur Gupta, David Kjerrumgaard, and ...

    (Hive输出)pentaho-big-data-kettle-plugins-hive-6.1.0.1-196

    (Hive输出)ETLDesigner\common\system\karaf\system\pentaho\pentaho-big-data-kettle-plugins-hive\6.1.0.1-196\下的文件。 (Hive输出)pentaho-big-data-kettle-plugins-hive-6.1.0.1-196。

    hive客户端安装_hive客户端安装_hive_

    LOAD DATA LOCAL INPATH '/path/to/data.txt' INTO TABLE test_table; SELECT * FROM test_table; ``` 以上就是Hive客户端的安装和基本使用过程。通过这个客户端,你可以方便地对存储在Hadoop上的大数据进行结构化...

    hive相关练习的数据data.rar

    LOAD DATA LOCAL INPATH '/path/to/local/data/04_data/video_info.txt' INTO TABLE video_info; ``` 对于用户信息表`user_info`,同样可以执行类似的操作。在完成数据加载后,我们就可以开始进行各种数据分析,...

    分布式数据仓库Hive大全

    2.6.1 Inserting data into Hive Tables from queries 21 2.6.2 Writing data into filesystem from queries 21 2.7 Cli 22 2.7.1 Hive Command line Options 22 2.7.2 Hive interactive Shell Command 24 2.7.3 ...

    连接hive依赖的jar包_hive连接方式

    Hive可以通过Thrift协议暴露服务,通常使用HTTP或HTTPS作为传输层,因此连接字符串可能形如`jdbc:hive2://hostname:port/;transportMode=http;httpPath=hive.server2.thrift.http.path;principal=kerberos_principal...

    Hive2.x系列驱动,

    标题 "Hive2.x系列驱动" 指的是Hive版本2.x的客户端连接器,这些驱动程序使得应用程序能够与Hive服务器进行交互,执行SQL查询并获取数据。Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL语言处理存储在HDFS...

    hive学习必备经典(百度)

    Hive学习必备经典 Hive是一种基于Hadoop的数据仓库工具,用于数据分析和报表生成。...LOAD DATA INPATH 'path/to/data' INTO TABLE table_name; ``` 其中,`path/to/data`是数据文件的路径,`table_name`是目标表名。

    HiveSQL实战题目.docx

    load data local inpath '/export/data/hivedatas/student.csv' into table student; 这个语句将 student.csv 文件中的数据加载到 student 表中。 五、HiveSQL Join 语句 HiveSQL 的 Join 语句用于连接多个表。...

Global site tag (gtag.js) - Google Analytics