Overview
HCatalog is a table and storage management layer for Hadoop that enables users with different data processing tools — Pig, MapReduce — to more easily read and write data on the grid. HCatalog’s table abstraction presents users with a relational view of data in the Hadoop distributed file system (HDFS) and ensures that users need not worry about where or in what format their data is stored — RCFile format, text files, SequenceFiles, or ORC files.
HCatalog Architecture
HCatalog is built on top of the Hive metastore and incorporates Hive's DDL. HCatalog provides read and write interfaces for Pig and MapReduce and uses Hive's command line interface for issuing data definition and metadata exploration commands.
Interfaces
pig | HCatLoader HCatStorer |
mapreduce | HCatInputFormat HCatOutputFormat |
Data Model
HCatalog presents a relational view of data. Data is stored in tables and these tables can be placed in databases. Tables can also be hash partitioned on one or more keys; that is, for a given value of a key (or set of keys) there will be one partition that contains all rows with that value (or set of values). For example, if a table is partitioned on date and there are three days of data in the table, there will be three partitions in the table. New partitions can be added to a table, and partitions can be dropped from a table. Partitioned tables have no partitions at create time. Unpartitioned tables effectively have one default partition that must be created at table creation time. There is no guaranteed read consistency when a partition is dropped.
Partitions contain records. Once a partition is created records cannot be added to it, removed from it, or updated in it. Partitions are multi-dimensional and not hierarchical. Records are divided into columns. Columns have a name and a datatype. HCatalog supports the same datatypes as Hive.
Data Flow Example
reference:
https://cwiki.apache.org/confluence/display/Hive/HCatalog
相关推荐
hive-hcatalog-core-1.2.1.jarhive-hcatalog-core-1.2.1.jarhive-hcatalog-core-1.2.1.jar
org.apache.hadoop.security.AccessControlException: Permission denied.
hive 开发UDF 使用maven工程 引发jar包缺失 hive 开发UDF 使用maven工程 引发jar包缺失
Pig Hive 对比分享, Pig HCatalog 元数据组合使用
1. **API 兼容性**:HCatalog 提供的 Java API 应该在指定的 Hive 版本范围内保持不变,使得开发基于这些 API 的应用程序时不必担心版本升级问题。 2. **SerDe 兼容性**:SerDe(序列化/反序列化)是 Hive 和 ...
2. **数据共享**:HCatalog允许不同应用程序(如Pig和Hive)共享同一个数据集,避免了数据的冗余拷贝,提高了存储效率。 3. **表和分区管理**:HCatalog支持创建、删除和修改表以及表的分区,提供了对数据组织的...
hive:/default/foobar hive -e "SELECT * FROM foobar" > $[OUTPUT]协议 !hive:/default/foobar <- !hive:/default/sample_07 [hive] CREATE TABLE IF NOT EXISTS ${env:TABLEOUT} LIKE ${env:TABLEIN}; INSERT ...
hive3.1.2编译后的驱动包
hadoop-hue-hive-cookbook TODO:在此处输入食谱说明。 支持的平台 TODO:列出您支持的平台。 属性 钥匙 类型 描述 ... " recipe[hadoop-hue-hive::default] " ] } 许可证和作者 作者:: YOUR_NAME ()
bdp2hive项目介绍一、概述项目主要是集成生成sqoop脚本和创建hive分区表组件。生成sqoop脚本组件主要通过传递的数据库信息查询数据库获取表字段与数据集之间的对照关系SQL语句,通过模板拼接成sqoop脚本,上传服务器...
Apache Hive事务操作设计及未来发展 Apache Hive是一款基于Hadoop的数据仓库工具,支持对大规模数据的存储、查询和分析。随着大数据时代的到来,Apache Hive的事务操作设计变得越来越重要。本文将对Apache Hive的...
Hive是一个基于Hadoop的数据仓库工具,它本身并不存储数据,部署在Hadoop集群上,数据是存储在HDFS上的. Hive所建的表在HDFS上对应的是一个文件夹,表的内容对应的是一个文件。它不仅可以存储大量的数据而且可以对...
标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...
自述文件概括Django 开放式计算工具版本:0.1 Hive 是一个试图帮助其他需要计算能力的项目的项目。 它是一个网络平台 ( ),它试图让任何人都可以使用高性能集群。 本项目使用docker运行计算程序。 这允许使安装过程...
"jdbc:hive://localhost:10000/default". Currently, the only dbname supported is "default". 2.从hive导出数据到本地时注意指定的目录/home/bigdata/syg。如果指定的目录存在,hive会先删除该目录下的所有文件。...
在使用Hive的Beeline客户端进行连接时,可能会遇到错误提示"Could not open client transport with JDBC Uri: jdbc:hive2://hcmaster:10000/default"。这个错误通常意味着Beeline无法通过JDBC URL成功建立到Hive ...
Hive JDBC 1.1.0-cdh5.12.1 连接库是Apache Hive项目中的一个重要组件,主要用于允许客户端程序通过Java数据库连接(JDBC)接口与Hive服务器进行交互。这个连接库是专为CDH(Cloudera Distribution Including Apache...
hive-jdbc-1.1.0-cdh5.4.5-standalone.jar Caused by: java.sql.SQLException: java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at com.trs.gateway.commons.hive.HiveFeature.getConnection...
在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询和管理存储在Hadoop分布式文件系统(HDFS)中的大量数据。为了建立与Hive的连接,开发人员通常需要一些...