- 浏览: 146998 次
- 性别:
- 来自: 北京
最新评论
文章列表
本文整理自Hive官方Wiki的Getting Started部分:https://cwiki.apache.org/confluence/display/Hive/Home
1、安装与配置
Hive是建立在Hadoop上的数据仓库软件,用于查询和管理存放在分布式存储上的大规模数据集。它提供:
(1)一系列的工具,可以方便地对数据进行提取/转化/加载(ETL);
(2)一种可以对各种数据格式上进行结构化的机制;
(3)存取存放在Apache HDFS或其他存储系统如Apache HBase上的文件;
(4)通过MapReduce执行查询功能。
...
- 2015-12-09 11:18
- 浏览 272
- 评论(0)
按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html 用Hadoop进行分布式数据处理第2部分(进阶):http://www.ibm.com/developerworks/cn/linux/l-hadoop-2/index.html 用Hadoop进行分布式数据处理第3部分(应用程序开发):http://www.ibm.com/developerworks/cn/linux/l-hadoop-3/in ...
- 2015-12-09 11:15
- 浏览 158
- 评论(0)