`

Hive: HCatalog Intorduction

    博客分类:
  • Hive
 
阅读更多

Overview

HCatalog is a table and storage management layer for Hadoop that enables users with different data processing tools — Pig, MapReduce — to more easily read and write data on the grid. HCatalog’s table abstraction presents users with a relational view of data in the Hadoop distributed file system (HDFS) and ensures that users need not worry about where or in what format their data is stored — RCFile format, text files, SequenceFiles, or ORC files.


 

HCatalog Architecture

HCatalog is built on top of the Hive metastore and incorporates Hive's DDL. HCatalog provides read and write interfaces for Pig and MapReduce and uses Hive's command line interface for issuing data definition and metadata exploration commands.

 

Interfaces

pig HCatLoader   HCatStorer
mapreduce HCatInputFormat  HCatOutputFormat

 

Data Model

HCatalog presents a relational view of data. Data is stored in tables and these tables can be placed in databases. Tables can also be hash partitioned on one or more keys; that is, for a given value of a key (or set of keys) there will be one partition that contains all rows with that value (or set of values). For example, if a table is partitioned on date and there are three days of data in the table, there will be three partitions in the table. New partitions can be added to a table, and partitions can be dropped from a table. Partitioned tables have no partitions at create time. Unpartitioned tables effectively have one default partition that must be created at table creation time. There is no guaranteed read consistency when a partition is dropped.

Partitions contain records. Once a partition is created records cannot be added to it, removed from it, or updated in it. Partitions are multi-dimensional and not hierarchical. Records are divided into columns. Columns have a name and a datatype. HCatalog supports the same datatypes as Hive.

 

Data Flow Example

 

 

 

 

 

reference:

https://cwiki.apache.org/confluence/display/Hive/HCatalog

  • 大小: 57.8 KB
分享到:
评论

相关推荐

    hive-hcatalog-core-1.2.1.jar

    hive-hcatalog-core-1.2.1.jarhive-hcatalog-core-1.2.1.jarhive-hcatalog-core-1.2.1.jar

    Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3.0:

    hive 开发UDF 使用maven工程 引发jar包缺失 hive 开发UDF 使用maven工程 引发jar包缺失

    Pig.Hive.Hcatalog.分享

    Pig Hive 对比分享, Pig HCatalog 元数据组合使用

    hive-hcatalog-core-1.1.0-cdh5.14.4.jar

    org.apache.hadoop.security.AccessControlException: Permission denied.

    Hive-HCatalog-Compatibility

    1. **API 兼容性**:HCatalog 提供的 Java API 应该在指定的 Hive 版本范围内保持不变,使得开发基于这些 API 的应用程序时不必担心版本升级问题。 2. **SerDe 兼容性**:SerDe(序列化/反序列化)是 Hive 和 ...

    hcatalog-0.5.0

    2. **数据共享**:HCatalog允许不同应用程序(如Pig和Hive)共享同一个数据集,避免了数据的冗余拷贝,提高了存储效率。 3. **表和分区管理**:HCatalog支持创建、删除和修改表以及表的分区,提供了对数据组织的...

    drake-hive:Drake 的 Hive 插件

    hive:/default/foobar hive -e "SELECT * FROM foobar" > $[OUTPUT]协议 !hive:/default/foobar <- !hive:/default/sample_07 [hive] CREATE TABLE IF NOT EXISTS ${env:TABLEOUT} LIKE ${env:TABLEIN}; INSERT ...

    apache-hive-3.1.2-jdbc.jar

    hive3.1.2编译后的驱动包

    hadoop-hue-hive:Vagrant+Chef 食谱能够在 ubuntu 上安装 hadoop、hue 和 hive

    hadoop-hue-hive-cookbook TODO:在此处输入食谱说明。 支持的平台 TODO:列出您支持的平台。 属性 钥匙 类型 描述 ... " recipe[hadoop-hue-hive::default] " ] } 许可证和作者 作者:: YOUR_NAME ()

    Transactional Operations in Apache Hive: Present and Future

    Apache Hive事务操作设计及未来发展 Apache Hive是一款基于Hadoop的数据仓库工具,支持对大规模数据的存储、查询和分析。随着大数据时代的到来,Apache Hive的事务操作设计变得越来越重要。本文将对Apache Hive的...

    hive-3.1.1安装包

    Hive是一个基于Hadoop的数据仓库工具,它本身并不存储数据,部署在Hadoop集群上,数据是存储在HDFS上的. Hive所建的表在HDFS上对应的是一个文件夹,表的内容对应的是一个文件。它不仅可以存储大量的数据而且可以对...

    hive-jdbc-1.1.0-cdh5.4.5-standalone.jar

    hive-jdbc-1.1.0-cdh5.4.5-standalone.jar Caused by: java.sql.SQLException: java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at com.trs.gateway.commons.hive.HiveFeature.getConnection...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...

    Hive:一个开放的、基于docker的共享计算工具

    自述文件概括Django 开放式计算工具版本:0.1 Hive 是一个试图帮助其他需要计算能力的项目的项目。 它是一个网络平台 ( ),它试图让任何人都可以使用高性能集群。 本项目使用docker运行计算程序。 这允许使安装过程...

    tw-hive:学习Hive API

    "jdbc:hive://localhost:10000/default". Currently, the only dbname supported is "default". 2.从hive导出数据到本地时注意指定的目录/home/bigdata/syg。如果指定的目录存在,hive会先删除该目录下的所有文件。...

    hive-jdbc-1.1.0-cdh5.12.1 连接库 jar包

    Hive JDBC 1.1.0-cdh5.12.1 连接库是Apache Hive项目中的一个重要组件,主要用于允许客户端程序通过Java数据库连接(JDBC)接口与Hive服务器进行交互。这个连接库是专为CDH(Cloudera Distribution Including Apache...

    Hive Beeline连接报错:Could not open client transport with JDBC Uri: jdbc:hive2://hcmaster:10000/default

    在使用Hive的Beeline客户端进行连接时,可能会遇到错误提示"Could not open client transport with JDBC Uri: jdbc:hive2://hcmaster:10000/default"。这个错误通常意味着Beeline无法通过JDBC URL成功建立到Hive ...

    hive连接所需jar包

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询和管理存储在Hadoop分布式文件系统(HDFS)中的大量数据。为了建立与Hive的连接,开发人员通常需要一些...

    DataGrip连接Hive所需jar包

    在大数据领域,Hive是一个基于Hadoop的数据仓库工具,它允许使用SQL(HQL)语言进行数据查询、分析和管理。而DataGrip是一款由JetBrains公司开发的强大数据库集成开发环境,适用于多种数据库管理和开发,包括Hive。...

Global site tag (gtag.js) - Google Analytics