`
MyEyeOfJava
  • 浏览: 1152630 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7af2d6ca-4fe1-3e9a-be85-3f65f7120bd0
测试开发
浏览量:71189
533896eb-dd7b-3cde-b4d3-cc1ce02c1c14
晨记
浏览量:0
社区版块
存档分类
最新评论

[Hadoop]Pig与Hive的区别

 
阅读更多
请允许我很无聊的把飞机和火车拿来做比较,因为2者根本没有深入的可比性,虽然两者都是一种高速的交通工具,但是具体的作用范围是截然不同的,就像Hive和Pig都是Hadoop中的项目,并且Hive和pig有很多共同点,但Hive还似乎有点数据库的影子,而Pig基本就是一个对MapReduce实现的工具(脚本)。两者都拥有自己的表达语言,其目的是将MapReduce的实现进行简化,并且读写操作数据最终都是存储在HDFS分布式文件系统上。看起来Pig和Hive有些类似的地方,但也有些不同,来做一个简单的比较,先来看一张图:

查看大图请点击这里



再让我说几句废话:
Language
在Hive中可以执行  插入/删除 等操作,但是Pig中我没有发现有可以 插入 数据的方法,请允许我暂且认为这是最大的不同点吧。

Schemas
Hive中至少还有一个“表”的概念,但是Pig中我认为是基本没有表的概念,所谓的表建立在Pig Latin脚本中,对与Pig更不要提metadata了。

Partitions
Pig中没有表的概念,所以说到分区对于Pig来说基本免谈,如果跟Hive说“分区”(Partition)他还是能明白的。

Server
Hive可以依托于Thrift启动一个服务器,提供远程调用。 找了半天压根没有发现Pig有这样的功能,如果你有新发现可以告诉我,就好像有人开发了一个Hive的REST

Shell
在Pig 你可以执行一些个 ls 、cat 这样很经典、很cool的命令,但是在使用Hive的时候我压根就没有想过有这样的需求。

Web Interface
Hive有,Pig无

JDBC/ODBC
Pig无,Hive有
分享到:
评论
2 楼 scamer 2013-11-27  
谢谢,学习了
1 楼 最佳蜗牛 2013-05-02  
收藏。学习。谢谢

相关推荐

    HADOOP 系统之hadoop pig hive 整合版

    在IT行业中,Hadoop、Hive和Pig是大数据处理领域的三大重要工具,它们共同构建了一个高效、可扩展的数据处理框架。以下是对这些技术的详细解释: **Hadoop** 是一个开源的分布式计算框架,由Apache软件基金会开发。...

    HadoopMapReduce:学习 Apache(大)数据库框架 - Hadoop、Pig、Hive、Hbase

    目标是学习 Apache(大)数据库框架 - Hadoop、Pig、Hive、Hbase 描述 目前在 2 个数据集上有 3 个项目: 百万歌曲数据集 Most_Popular_Genres :使用非常简单的流派识别(Apache Hive 与 Apache Pig)确定“21 ...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...

    pig-hive编程指南

    在大数据处理领域,Pig和Hive是Apache Hadoop生态系统中的重要组件,主要用于大规模数据处理和分析。这两者都提供了高级的数据抽象和查询语言,使得非Java背景的开发者也能方便地进行MapReduce作业。本文将深入探讨...

    Hadoop集群搭建及Hive的安装与使用

    8. **与其他Hadoop组件集成**:Hive可以很好地与Hadoop生态系统中的其他组件,如Pig、Spark、Impala等集成,提供更丰富的数据分析能力。 在实际应用中,可能还需要考虑高可用性、性能优化、安全性等问题。例如,为...

    Hadoop Hive

    这个教程可能还会讨论Hive与其他Hadoop组件如Pig和HBase的交互,以及如何使用Hive Metastore来管理元数据。 Hadoop Hive的关键特性包括: 1. 扩展性:Hive能够轻松扩展到数千个节点,处理PB级别的数据。 2. 易用性...

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    Oozie是Hadoop的工作流调度器,用于管理Hadoop作业(包括MapReduce、Pig、Hive、Sqoop等)和Spark作业的调度。配置Oozie时,需要设置Hadoop和Spark的相关路径,并创建Oozie数据库。 Kafka是一个分布式流处理平台,...

    Hadoop和hive大数据面试题

    熟悉这些技术的使用场景、优缺点以及它们与Hadoop和Hive的整合方式,将有助于全面展示你的大数据技能和理解。 总之,准备Hadoop和Hive的大数据面试,需要深入理解这两个技术的基本原理、核心功能以及实际应用。通过...

    HADOOP HIVE

    - **Pig**:类似于 Hive,Pig 也是 Hadoop 生态系统的一部分,它提供了一个高层数据流语言(Pig Latin)来简化 Hadoop 数据处理任务。与 Hive 不同的是,Pig 更适合于数据探索和快速原型开发。 - **HBase**:HBase ...

    Pig.Hive.Hcatalog.分享

    Pig Hive 对比分享, Pig HCatalog 元数据组合使用

    基于hadoop、hive的数据分析实践.zip

    4. **兼容性**: Hive支持多种数据源,如HDFS、HBase、S3等,并能与多种数据工具(如Pig、Hue等)无缝集成。 **Hadoop与Hive在数据分析中的结合应用** 1. **数据预处理**: 在进行数据分析之前,Hadoop的MapReduce...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 09 Hive 共36页.pptx

    Hive是Facebook为Hadoop设计的数据仓库工具,它将Hadoop上的原始结构化数据转化为易于查询的表,支持与SQL高度相似的语言HiveQL。Hive的目标是让非Java程序员,尤其是熟悉SQL的分析师,能够轻松处理大量数据。Hive...

    hadoop_hbase_pig

    标题 "hadoop_hbase_pig" 暗示了这个压缩包包含与Hadoop、HBase和Pig相关的技术知识。Hadoop是一个开源框架,主要用于处理和存储大量数据,而HBase是建立在Hadoop之上的分布式列式数据库,Pig则是一个用于大数据分析...

    清华大学精品大数据实战课程(Hadoop、Hbase、Hive、Spark)PPT课件含习题(32页) 第2章 Hadoop基础.pptx

    【大数据与Hadoop基础】 大数据是指那些传统数据处理方式无法有效处理的大量、高速、多样化的信息资产。Hadoop作为大数据处理的核心框架,由Apache软件基金会开发,旨在提供分布式存储和计算能力,解决海量数据的...

    Apache Hadoop---Hive.docx

    然后,HCatalog 作为元数据服务,使得不同工具(如 Pig、Hive)可以共享数据存储信息,而 WebHCat 则提供了 RESTful API 用于远程调度和管理 Hive 作业。 3. **核心功能**: - **ETL 工具**:Hive 支持数据的抽取...

    完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记(共63页).rar

    6. **Hive与其它组件的集成**:如HBase、Spark、Pig等,Hive可以通过Hive SerDe(序列化/反序列化)与其他数据源进行交互,增强了数据处理的灵活性。 7. **Hive的版本发展**:从早期的Hive 0.x到Hive 3.x,Hive经历...

    Hadoop大数据处理讲义-C10. Hive_Pig.pdf

    Hive_Pig.pdf】主要涵盖了两个重要的大数据处理工具——Hive和Pig,它们都是建立在Hadoop生态系统之上,用于处理和分析大规模数据的框架。 ### Hive Hive是由Facebook开发的数据仓库系统,它允许用户使用类似于SQL...

    基于hadoop,hive,hbase的日志分析系统.zip

    标题 "基于hadoop,hive,hbase的日志分析系统.zip" 涉及到的核心技术是大数据处理领域中的Hadoop、Hive和HBase。这三个工具在大数据生态系统中扮演着重要角色,尤其对于日志分析而言,它们提供了一种有效且可扩展的...

Global site tag (gtag.js) - Google Analytics