`

Hadoop白皮书(4):数据仓库Hive简介

阅读更多

Hive 是一种建立在 Hadoop 之上的数据仓库架构。它提供了:

• 一套方便的实施数据抽取(ETL)的工具。

• 一种让用户对数据描述其结构的机制。

• 支持用户对存储在Hadoop中的海量数据进行查询和分析的能力。

Hive 的基本特点是它采用 HDFS 进行数据存储并利用 Map/Reduce 框架进行数据操作。所以从本质上来说,Hive 就是个编译器,它把用户的操作(查询或者 ETL)变换成Map/Reduce 任务,利用 Map/Reduce 框架执行这些任务以对HDFS上的海量数据进行处理。

Hive 被设计成一种批处理系统。它利用 Map/Reduce 框架来处理数据。因此,它在Map/Reduce 任务提交和调度上有比较高的开销。即使对于小数据集(几百兆)来说,延迟也是分钟级的。但其最大的优点是延迟相对于数据集大小是线性增加的。

Hive 定义了一种简单的类 SQL 查询语言 HiveQL,让熟悉 SQL 的用户可以非常容易的进行查询。与此同时,HiveQL 也允许熟悉 Map/Reduce 框架的程序员在查询中插入自定义的 mapper 和 reducer 脚本以扩展 Hive 内嵌的功能,完成更复杂的分析。


Hive特点

针对海量数据的高性能查询和分析系统

由于 Hive 的查询是通过 MapReduce 框架实现的,而 MapReduce 本身就是为实现针对海量数据的高性能处理而设计的。所以 Hive 天然就能高效的处理海量数据。

与此同时,Hive 针对 HiveQL 到 MapReduce的翻译进行了大量的优化,从而保证了生成的MapReduce 任务是高效的。在实际应用中,Hive 可以高效的对 TB 甚至 PB级的数据进行处理。

类SQL的查询语言

HiveQL 和 SQL 非常类似,所以一个熟悉SQL 的用户基本不需要培训就可以非常容易的使用 Hive 进行很复杂的查询。

HiveQL 灵活的可扩展性(Extendibility)

除了 HiveQL 自身提供的能力,用户还可以自定义其使用的数据类型、也可以用任何语言自定义 mapper 和 reducer 脚本,还可以自定义函数(普通函数、聚集函数)等。这就赋予了 HiveQL 极大的可扩展性。用户可以利用这种可扩展性实现非常复杂的查询。

高扩展性(Scalability)和容错性

Hive本身并没有执行机制,用户查询的执行是通过 MapReduce 框架实现的。由于MapReduce 框架本身具有高度可扩展(计算能力随 Hadoop 机群中机器的数量增加而线性增加)和高容错的特点,所以 Hive也相应具有这些特点。

与 Hadoop 其他产品完全兼容

Hive 自身并不存储用户数据,而是通过接口访问用户数据。这就使得 Hive支持各种数据源和数据格式。例如,它支持处理 HDFS 上的多种文件格式(TextFile、SequenceFile 等),还支持处理 HBase 数据库。用户也完全可以实现自己的驱动来增加新的数据源和数据格式。一种理想的应用模型是将数据存储在 HBase 中实现实时访问,而用Hive对HBase 中的数据进行批量分析。


ref:http://cloud.watchstor.com/storage-140703.htm
  • 大小: 42.3 KB
分享到:
评论

相关推荐

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    3. **Hive**:Hive是构建在Hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL(HQL)似的查询语言进行数据查询、分析。Hive将SQL查询转换为MapReduce任务执行,简化了对Hadoop数据的...

    HIVE大数据平台白皮书.docx

    1. **Hive架构**:Hive是一个基于Hadoop的数据仓库工具,它能够将结构化的数据文件映射为一张数据库表,并提供SQL(HQL)查询功能,简化了对大规模数据集的分析。Hive的主要组件包括客户端、元数据服务器、...

    中科曙光XData-Hadoop大数据软件白皮书v2.0.pdf

    - **Hive**:建立在Hadoop之上的数据仓库,提供了类似SQL的查询语言,方便用户操作结构化数据。 - **Spark**:一种高性能的数据处理引擎,支持实时数据流处理和复杂的算法处理。 #### 三、XData-Hadoop的特点与优势...

    Hadoop大数据

    Hadoop是一个重要的大数据处理平台,其设计灵感来源于Google的MapReduce白皮书和Google文件系统(GFS)。它是开源Apache项目的一部分,最初由Yahoo的Doug Cutting领导开发。Hadoop具有高度的可扩展性,适用于在普通...

    大数据技术分享 企业数据仓库在大数据分析时代的角色变迁 共31页.pdf

    - **Hadoop环境的工具**:除了核心的Hadoop组件外,还需要一系列辅助工具,如Hive(用于数据仓库)、Pig(用于数据处理)、Spark(用于高速数据处理)等,以增强Hadoop的功能。 #### 五、未来十年中的技术汇聚与...

    【推荐】最强大数据学习与最佳实践资料合集(基础+架构+数仓+治理+案例)(100份).zip

    第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书...

    大数据标准化白皮书.zip

    2. 数据存储:涵盖了分布式文件系统(如Hadoop HDFS)、列式数据库、数据仓库和数据湖等解决方案。 3. 数据处理:包括批处理(如MapReduce)、流处理(如Apache Flink、Spark Streaming)和交互式查询(如Apache ...

    _大数据咨询方法轮白皮书.rar

    2. 大数据技术栈:白皮书可能会介绍Hadoop、Spark等大数据处理框架,以及NoSQL数据库、数据仓库(如Hive、HBase)等存储技术。同时,也会涉及到流处理、实时分析、机器学习等相关工具。 3. 数据治理:数据治理是...

    阿里云 专有云企业版 V3.8.0 云数据库 HBase 技术白皮书 20190621.pdf

    - 与Hadoop生态系统集成:无缝对接Hadoop、Hive、Spark等大数据工具。 3. **使用注意事项**: - 用户应通过官方渠道获取和使用文档,遵守保密协议,不得向第三方披露或使用。 - 文档内容可能随产品升级而变更,...

    阿里云 专有云Enterprise版 E-MapReduce V3.3.0 技术白皮书 20180312.pdf

    4. Hive:提供了数据仓库和数据分析功能。 5. Spark:提供了数据处理和分析功能。 四、E-MapReduce组件 E-MapReduce组件包括: 1. ResourceManager组件:负责资源管理和调度。 2. NodeManager组件:负责节点管理...

    FusionInsight HD技术白皮书.pdf

    - **数据仓库组件Hive**:构建在Hadoop之上,提供SQL-like接口进行大数据分析,简化了数据查询和分析流程,适合离线数据分析。 - **分布式内存计算引擎Spark**:Spark提供了快速、通用、可扩展的计算模型,支持...

    FusionInsight LibrA技术白皮书.docx

    LibrA需要运行在特定的操作系统和数据库环境中,通常兼容Linux发行版,并需要配合Hadoop、Hive等大数据组件。 3.2 硬件及本地PC要求 硬件配置需满足一定的CPU、内存、硬盘和网络带宽要求,以确保系统的稳定运行。...

    华为FusionInsight HD技术白皮书.pdf

    Hive基于HDFS,支持数据仓库的功能,如数据整理、查询和分析,是大数据分析的重要工具。 2.5 分布式数据库 HBase HBase是一个基于Hadoop的分布式列式数据库,支持实时读写操作,适用于大数据的实时分析场景。HBase...

    XXX大数据平台技术白皮书.docx

    - **Hive**是数据仓库工具,用于离线批处理分析,便于数据汇总和报表生成。 - **GraphDB**是大规模分布式并行图数据库,适用于复杂关系网络的数据存储和查询。 4. **数据总线与数据处理**: - **数据采集与交换*...

    FusionInsight HD技术白皮书.docx

    Hive是基于Hadoop的数据仓库工具,允许用户使用SQL-like语言(HQL)查询和管理大数据。Hive将SQL查询转换为MapReduce任务,简化了大数据分析的复杂性。 2.7 分布式内存计算引擎 Spark Spark提供了一种快速、通用和...

    大数据技术白皮书.pdf

    大数据平台的发展是随着京东业务同步发展的, 由原来的传 统数据仓库模式逐步演变为基于 Hadoop 的分布式计算架构,如 图 1 所示。技术领域覆盖 Hadoop、Kubernetes、Spark、Hive、 Alluxio、Presto、Hbase、Storm...

    59-数栖·离线开发v5.0.0-产品白皮书.docx

    该方案能够支持PB级别的数据仓库构建和大规模数据集成,通过深度挖掘数据价值,实现数据资产化的目标。 核心特点包括: - 集成主流大数据组件的功能。 - 支持多种数据开发任务,如Hive、SparkSQL等。 - 提供开发与...

    架构设计思路样例.zip

    2. **数据仓库**:例如Hive或HBase,提供结构化和半结构化数据的存储与查询能力。 3. **流处理**:对于实时数据流,平台可能使用Kafka、Storm或Samza等技术,实现实时分析和响应。 4. **元数据管理**:确保数据质量...

Global site tag (gtag.js) - Google Analytics