hive是Facebook的产品,很不错。
官方文档:
http://wiki.apache.org/hadoop/Hive/GettingStarted有很详细说明。
基本上根据文档能对hive快速入门。在使用过程中可能会出现以下问题:
当执行下面命令时:
$ $HIVE_HOME/bin/hive
可能会出现Invalid maximum heap size: -Xmx4096m提示。
那是因为hive默认hadoop heap size为4096m。如果出现这个提示,你需要修改hadoop heap size的大小。方法如下:
1.执行命令。
$ sudo gedit $HIVE_HOME/bin/ext/util/execHiveCmd.sh
2.在打开的sh文件中修改HADOOP_HEAPSIZE的值(如将默认的4096改为1024),保存,退出。
将
# increase the threashold for large queries
HADOOP_HEAPSIZE=4096
改为
# increase the threashold for large queries
HADOOP_HEAPSIZE=1024
分享到:
相关推荐
Hadoop和Hive是大数据处理和分析领域的重要工具。Hadoop是一个分布式系统基础架构,由Apache基金会开发。它通过在计算机集群之间分布式存储大量数据并允许应用程序在这些集群上并行处理大量数据,来实现高可靠性和...
Apache Hadoop:Hadoop数据仓库Hive入门与应用.docx
大数据框架组件 含Hadoop、Spark、Flink等大数据书籍 一、Hadoop 1. Hadoop——分布式文件管理系统HDFS 2. Hadoop——HDFS的Shell操作 3. Hadoop——HDFS的Java API操作 ... 5.Hive——Hive查询
以下是对Hadoop Hive入门学习的详细总结: ### 1. Hive 安装与部署 #### 1.1 环境需求 在开始Hive的安装之前,确保你已经具备了以下基础环境: - **JDK 1.6** 或更高版本:Hive依赖Java运行环境,所以首先需要安装...
【标题】:“基于Hadoop的数据仓库Hive学习指南” 【描述】:该文档是一份针对Hive的学习资料,旨在引导读者理解如何在Hadoop平台上利用Hive进行数据仓库操作和编程实践。它涵盖了Hive的基本概念、安装步骤、实验...
《Spark 3.2.0 与 Hadoop 3 的集成——无 Hive 版本解析》 Spark,作为大数据处理领域的重要工具,以其高效的内存计算和分布式数据处理能力备受青睐。Spark 3.2.0 是一个重要的版本更新,它在性能、稳定性和功能上...
Hive是Apache Hadoop生态系统中的一个关键组件,它为大数据处理提供了基于SQL的查询和分析能力。Hive最初设计的目标是解决大规模数据集的离线分析问题,尤其适合那些不频繁但需要进行复杂分析的数据。它通过将SQL...
大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK.......
Hive学习必备——配置Hive环境教程 在这篇文章中,我们将详细介绍如何配置Hive环境,包括安装Hive、配置Hadoop环境、配置Hive Metastore数据库等步骤。同时,我们还将使用Xshell6工具来远程连接到Hive服务器,并...
hive2.1.0 --- spark1.6.0 hive on spark的spark包,这个是已经经过./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"编译后的了spark-1.6.0-bin-...
### Hadoop Hive 入门学习笔记 #### 一、Hadoop Hive 概述 Hadoop Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,使得 Hadoop 上的数据可以被...
在描述中提到的"spark-2.3.1-bin-hadoop2.9-without-hive.tgz"是一个特别构建的Spark发行版,不包含Hive的支持,意味着这个版本的Spark没有内置与Hive交互的能力。 在大数据处理领域,Spark以其内存计算特性而闻名...
总的来说,"spark--bin-hadoop2-without-hive.tgz"是一个用于非Hive环境的Spark二进制包,提供了完整的Spark功能,包括核心计算、SQL查询、流处理和机器学习等,为大数据处理提供了高效解决方案。在实际使用中,应...
本文件内容适用于学习Hadoop时所需配置Hive的所有文件,包括以下内容: apache-hive-2.0.0-bin.tar.gz hive-site.xml my.cnf .txt mysql-community-client-5.7.18-1.el7.x86_64.rpm mysql-community-common-5.7.18-1...
在大数据领域中,Hadoop、HBase和Hive是重要的组件,它们通常需要协同工作以实现数据存储、管理和分析。随着各个软件的版本不断更新,确保不同组件之间的兼容性成为了一个挑战。本文将介绍Hadoop、HBase、Hive以及...
本主题将深入探讨如何将Hadoop与Hive和Sqoop这两个重要工具结合使用,以实现高效的数据管理和数据迁移。 首先,我们来看Hadoop。Hadoop基于Google的GFS(Google File System)和MapReduce模型设计,它提供了海量...
标题中提到的“HDP平台的Hive性能调优——Hive高性能最佳实践”涉及Hadoop发行版平台(HDP)上Apache Hive的性能优化。Apache Hive是一个构建在Hadoop上的数据仓库工具,它允许用户通过类SQL语言HiveQL来对大数据...
本压缩包“spark--bin-hadoop3-without-hive.tgz”提供了Spark二进制版本,针对Hadoop 3.1.3进行了编译和打包,这意味着它已经与Hadoop 3.x兼容,但不包含Hive组件。在CentOS 8操作系统上,这个版本的Spark已经被...
本压缩包“Hadoop分布式文件系统——导入和导出数据内含源码以及说明书可以自己运行复现.zip”包含了关于如何在HDFS上进行数据导入和导出的详细教程,以及相关的源代码和说明书,便于读者实践操作。 HDFS是Apache ...
"基于CentOS7的Hadoop2.7.7集群部署+hive3.1.1+Tez0.9.1" 本文档旨在描述基于CentOS7的Hadoop2.7.7集群部署+hive3.1.1+Tez0.9.1的环境搭建过程。该文档涵盖了环境说明、软件版本说明、配置hosts和hostname、配置SSH...