`

12、数据分析系统Hive/Pig

 
阅读更多
Hive(Facebook)构建在Hadoop之上的数据仓库;数据计算使用MR,数据存储使用HDFS
Hive 定义了一种类 SQL 查询语言——HQL;类似SQL, 但不完全相同
可认为是一个HQL-->MR的语言翻译器。

Hive装在一个节点就可以了,




Hive On HBase
使用HQL处理HBase中的数据
比直接通过HBase API存取数据方便;
但性能更低,相当于把在线处理转为批处理
存在问题
不够成熟;
不能按时间戳获取数据,默认总是取最新的数据

下一代Hive被称为“Stinger”,其底层的计算引擎将由Tez替换MapReduce;
Tez相比于MapReduce具有众多优势:
   提供了多种算子(比如Map、 Shuffle等)供用户使用;
   将多个作业合并成一个作业,减少磁盘读写IO;
   充分利用内存资源。

Spark
Spark是一个内存计算框架,相比于MapReduce,效率更加高效(部分测试表明,速度快100x)

Impala
底层计算引擎不再采用MR,而是使用与商用并行关系数据库类似的分布式查询引擎;
Impala可直接处理存储在HDFS上的数据,并将结果集再次写入HDFS;



Pig(Yahoo)
使用 Pig Latin语言表达数据流
   Pig Latin是一种新的数据流语言
   Pig将Pig Latin语句转化为MapReduce作业
   Pig Latin比MapReduce程序更易编写

Pig与Hive异同:
相同点
   运行在Hadoop之上;
   设计动机是为用户提供一种更简单的Hadoop上数据分析方式;
   解决相同问题的两个工具(yahoo! vs facebook)。
不同点
   Hive要求待处理数据必须有Schema,而Pig则无此要求;
   Hive有Server需要安装, Pig无Server不需要安装;
   编程语言不同, SQL与Pig Latin
   SQL:得到什么样的结果, Pig Latin:如何处理数据
   SQL:过程化语言, Pig Latin:数据流语言
  • 大小: 137.6 KB
  • 大小: 137.1 KB
分享到:
评论

相关推荐

    计算机专业基础理论电子书合集12----hive,pig

    Hive更适合于那些需要进行结构化查询和报告的业务场景,例如商业智能或数据分析。而Pig则更适用于数据探索、实验和开发复杂的分析流程,其强大的数据处理能力使得它在数据科学家和工程师中受到青睐。 在这个电子书...

    大数据 hive 实战数据

    在大数据处理领域,Hive是一个极其重要的工具,它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分:`video`数据和`user`数据,这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    例如,Hadoop负责数据的存储,HBase提供实时查询功能,Hive则用于离线批处理分析,Pig简化了数据分析流程,而Zookeeper作为协调者确保整个系统的稳定运行。了解和掌握这些工具,对于理解和处理大数据问题至关重要。...

    HADOOP 系统之hadoop pig hive 整合版

    Hadoop负责数据的存储和计算,Hive提供SQL-like接口使得数据查询更加便捷,而Pig则为复杂的数据分析提供了更高效的解决方案。这三者协同工作,能够帮助企业或组织有效地管理和利用他们的大数据资源,进行深度分析,...

    Hadoop大数据处理讲义-C10. Hive_Pig.pdf

    总结,Hive和Pig都是Hadoop生态系统中的重要工具,它们为大数据处理提供了方便的接口,使得数据分析工作更为高效。在实际应用中,可以根据数据的特性和需求选择适合的工具,或者结合两者的优势进行数据处理。

    pig-hive编程指南

    例如,Pig可用于复杂的数据清洗和转换,而Hive则用于进行报表生成和数据分析。这种互补性的结合可以充分利用各自的优势,提高整体处理效率。 总结,Pig和Hive都是强大的大数据处理工具,它们提供了抽象层,使得...

    Hadoop之外卖订单数据分析系统

    本文将深入探讨“Hadoop之外卖订单数据分析系统”,并介绍如何利用Hadoop进行大规模数据处理,以及如何将分析结果通过可视化手段进行展示。 首先,我们需要理解Hadoop的核心组件:HDFS(Hadoop Distributed File ...

    hive如何去安装与配置

    Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL方言(HQL)对存储在HDFS上的大规模数据进行查询和分析。在本文中,我们将详细讲解Hive的安装与配置过程,帮助你更好地理解和操作这个强大的大...

    基于hadoop的数据分析系统.zip

    《基于Hadoop的数据分析系统详解》 在当今大数据时代,数据的价值日益凸显,而有效处理海量数据的关键技术之一就是Hadoop。Hadoop是Apache软件基金会开发的一个开源框架,专门用于处理和存储大规模数据,尤其适合...

    2022毕业设计,基于 Hadoop 的游戏数据分析系统源码.zip

    【标题】:“2022毕业设计,基于 Hadoop 的游戏数据分析系统源码” 这个毕业设计项目主要聚焦于使用Hadoop框架开发一个游戏数据分析系统。Hadoop是Apache软件基金会的一个开源分布式计算平台,专为处理和存储大规模...

    Hive数据文件以及CLI操作命令

    92168条记录意味着这个数据集相当大,适合进行大规模数据分析。在Hive中,你可以创建外部表指向这个CSV文件,然后执行SQL-like查询来探索数据。 Hive指令样例.txt 文件则包含了Hive CLI(Command Line Interface)...

    基于Hadoop框架的图书数据管理系统.pdf

    4. 数据可视化:该系统使用图表形式来展示数据分析结果。 该系统的实现步骤如下: 1. 数据导入:将数据加载到 HDFS 中。 2. 数据处理:使用 Hive、MapReduce 和 Pig 等工具进行数据处理和分析。 3. 数据展示:使用...

    Hadoop之电商广告数据分析系统的设计有实现

    这可以通过各种数据可视化工具实现,如Tableau、Echarts或直接使用Hadoop生态系统中的工具,如Pig或Hive的SQL查询结果直接导出到图表。可视化的数据可以直观地展示广告效果,帮助电商企业发现潜在问题,优化广告策略...

    基于hadoop、hive的数据分析实践.zip

    在"基于hadoop、hive的数据分析实践.zip"这个项目中,很可能是涵盖了如何设置和使用Hadoop环境,编写HQL查询,以及如何利用Hadoop和Hive进行实际的数据分析任务等内容。通过深入学习和实践,你可以掌握大数据处理的...

    hive实用-hadoop数据仓库指南【英文about云】1

    这本书是针对 Hadoop 数据仓库系统的一份实践指南,适合对大数据处理感兴趣的开发者、数据分析师以及数据科学家。 Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用类似于 SQL 的查询语言(称为 HiveQL)来...

    Hadoop Hive

    Hairong Kuang可能是Hadoop领域的专家,他的演讲可能包括Hive如何与HDFS(Hadoop分布式文件系统)协同工作,以及如何利用Hive进行批处理和实时数据分析。他可能会强调Hive的并行处理能力,以及如何通过优化查询来...

Global site tag (gtag.js) - Google Analytics