`
qiemengdao
  • 浏览: 276567 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Hive学习笔记1--------Hive入门(转自淘宝数据平台团队)

    博客分类:
  • HIVE
阅读更多
Hive 是什么

在接触一个新的事物首先要回到的问题是:这是什么?

这里引用 Hive wiki 上的介绍:

Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large data sets stored in Hadoop files. Hive defines a simple SQL-like query language, called QL, that enables users familiar with SQL to query the data. At the same time, this language also allows programmers who are familiar with the MapReduce fromwork to be able to plug in their custom mappers and reducers to perform more sophisticated analysis that may not be supported by the built-in capabilities of the language.

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive does not mandate read or written data be in the “Hive format”—there is no such thing. Hive works equally well on Thrift, control delimited, or your specialized data formats. Please see File Format and SerDe in Developer Guide for details.

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。

Hive 资源

Hive 本身提供了较丰富的文档,以下链接提供了 Hive 的一些基础文档:

FaceBook 镜像(被墙):[[http://mirror.facebook.com/facebook/hive]]
Wiki 页面:[[http://wiki.apache.org/hadoop/Hive]]
入门指南:[[http://wiki.apache.org/hadoop/Hive/GettingStarted]]
查询语言指南:[[http://wiki.apache.org/hadoop/Hive/HiveQL]]
演示文稿:[[http://wiki.apache.org/hadoop/Hive/Presentations]]
蓝图:[[http://wiki.apache.org/hadoop/Hive/Roadmap]]
大多数有关 Hive 的使用和特性的问题可以从以上的链接中寻找到答案。当然,由于 Hive 本身在不断的发展中,文档的更新速度很多时候都赶不上 Hive 本身的更新速度,若希望了解 Hive 的最新动态或者遇到 Bug,可以加入 Hive 的邮件列表:
* User: hive-user@hadoop.apache.org
* Developer: hive-dev@hadoop.apache.org

Hive 的下载配置安装
请参考入门指南, 这里给出最基本的提纲:

安装配置 Hadoop。
安装配置数据库(mysql 等)。
获得 Hive 源码或者可执行代码。wget http://www.apache.org/dist/hadoop/hive/hive-0.5.0/hive-0.5.0-bin.tar.gz
tar xzf hive-0.5.0-bin.tar.gz
cd hive-0.5.0-bin
配置 Hive 如何访问数据库,如何访问 Hadoop。
运行 Hive。
当看到 Hive 提示符‘Hive>’的时候,恭喜,你可以开始你的 Hive 之旅了。

分享到:
评论

相关推荐

    hive学习笔记

    hive hadoo MapReduce 介绍Hive。Hive入门,Hive学习笔记

    Hadoop Hive入门学习笔记.pdf

    ### Hadoop Hive 入门学习笔记 #### 一、Hadoop Hive 概述 Hadoop Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,使得 Hadoop 上的数据可以被...

    hive入门文档笔记

    ### Hive入门文档笔记 #### 一、Hive简介与安装配置 Hive 是一个构建在 Hadoop 之上的数据仓库工具,它通过提供 SQL 查询功能,使得用户可以更方便地处理存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集。...

    Hive初识入门参考的笔记

    ### Hive初识入门知识点 #### 一、Hive概述与学习方法 - **概念与原理**:Hive 是一个建立在 Hadoop 之上的数据仓库工具,它将结构化的文件映射为表,并提供了类似 SQL 的查询语言 HQL,使得用户能够通过 SQL 语法...

    Hive从入门到精通资源.zip

    另外一个文件“Mr.zhou_Zxy.txt”可能是一份学习笔记或教程,作者可能是“Mr. Zhou Zxy”,它可能包含了Hive的实际操作步骤、技巧以及常见问题的解决方案,对于初学者来说是一份宝贵的参考资料。 通过这些资源,...

    hive搭建及使用入门简介(内含PPT、各种表创建sql及hive搭建使用笔记)

    “Hive搭建使用笔记”可能包含了实践过程中的注意事项、常见问题及其解决方案,是学习过程中宝贵的参考资料。 通过这个压缩包,你可以全面掌握Hive的基础知识,包括安装、配置、表管理和SQL操作。实践是学习最好的...

    hadoop,hive,hbase学习资料

    4. **Hive学习笔记.pdf**:Hive的学习笔记通常会涵盖HQL(Hive Query Language)、表的创建与管理、数据加载与查询优化等内容,适用于数据分析人员。 5. **分布式并行数据库集群在海量数据处理上的应用.pdf**:这份...

    03_Hive.docx

    ### 数据仓库Hive入门知识点详解 #### 一、Hive简介 Hive 是 Facebook 开源的一个数据仓库工具,主要用于处理海量结构化数据的日志统计需求。它通过将结构化的数据文件映射为一张数据库表,并提供了类似 SQL 的查询...

    大数据入门学习笔记(捌)- Hadoop项目实战 测试数据

    https://blog.csdn.net/bingdianone/article/details/84333601 博客的测试数据

    hive笔记,干货满满,基础语法,分桶分区等

    语法笔记hive干货,没有废话,基础语法,自己学习中记录的基础简单内容,入门级别,分桶,分区,查询,常用命令等。

    Hive 口袋手册

    《Hive 口袋手册》是笔者根据自己对 Apache Hive 的知识点的理解汇总而成的小册子。...写这本册子的初衷一是为了总结自己关于 Hive 的学习过程,二是为了将自己学习过程中七零八乱的笔记做个整理、汇总。

    斯坦福大学机器学习课程个人笔记完整版

    该课程的学习笔记提供了机器学习从入门到进阶的全面内容,涵盖理论知识、算法原理和应用案例。学习笔记强调了线性回归的理论基础和应用,说明了回归模型如何从数据中学习并进行预测。还详细解释了SVM的原理和核函数...

    Hadoop学习笔记.pdf

    - Hive:为数据仓库设计,提供了SQL方言HiveQL,允许用户编写类似SQL的查询语句来操作Hadoop中的数据。 - Sqoop:是一个开源工具,用于在Hadoop和关系数据库之间高效地传输大量数据。 - Oozie:是一个用于管理Hadoop...

    Hadoop的xmind的入门笔记

    3. **Hadoop day03.xmind**:可能涉及Hadoop生态系统中的其他组件,如HBase(分布式数据库)、Hive(数据仓库工具)和Pig(数据分析平台),以及它们与Hadoop的交互方式。 4. **Hadoop day04.xmind**:可能深入到...

    入门必须学大数据语言Java基础笔记

    本资源提供的“Java基础笔记”详细介绍了Java语言的基础概念和核心特性,旨在帮助学习者快速理解并掌握Java编程。 Java语言是面向对象的编程语言,其设计哲学是“一次编写,到处运行”。它具有高度的可移植性,因为...

    机器学习笔记

    根据所提供的文件信息,该份文档是一份机器学习的笔记,涵盖了众多机器学习领域的基本概念和技术。下面,我们将详细解读文件中所提到的机器学习知识点: 1. CS229是斯坦福大学开设的一门机器学习课程编号,由Andrew...

    数据库学习入门数据库基础入门.rar_MYSQL_大数据整理_大数据知识点_学习书籍

    学习笔记和资料可以帮助巩固理论知识,并提供实践案例。这些笔记可能涵盖常见的问题解决方案,最佳实践,以及实际项目中的经验分享。学习视频则以直观的方式展示操作步骤,便于理解和模仿。 总的来说,这份压缩包为...

    斯坦福大学机器学习课程个人笔记(科苑硕士)

    作者在个人笔记中也提到了自己的学习背景和对机器学习的一些初步认识,表明了这是一份入门学习者的笔记,其中可能存在理解或表述上的不准确,因此读者在参考时需要谨慎。同时,作者还提供了一些实际操作经验和研究...

    大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等代码

    5、Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等 5.1 HDFS Hadoop快速入门 HDFSOverView Hadoop广义生态系统 Hadoop高可用配置 HadoopCommon分析 HDFS集群相关管理 HDFS Shell ...

    大数据Spark_带有视屏_以及笔记_全面

    - **笔记文档**:笔记文档详细记录了学习过程中的重点难点,有助于加深理解和记忆。 - **实践项目**:通过实际项目练习,可以巩固所学知识并积累实战经验。 #### 十、学习方法建议 1. **理论与实践相结合**:在学习...

Global site tag (gtag.js) - Google Analytics