Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners:
-
1. DDL statements (e.g.
CREATE TABLE
,DROP TABLE
, etc.) and commands (e.g.SET <key> = <value>
,ADD FILE
,ADD JAR
, etc.)2. In most cases, Spark SQL simply delegates these statements to Hive, as they don’t need to issue any distributed jobs and don’t rely on the computation engine (Spark, MR, or Tez).
-
SELECT
queries,CREATE TABLE ... AS SELECT ...
statements and insertionsThese statements are executed using Spark as the execution engine.
The Hive classes packaged in the assembly jar are used to provide entry points to Hive features, for example:
- 1. HiveQL parser
- 2. Talking to Hive metastore to execute DDL statements
- 3. Accessing UDF/UDAF/UDTF
As for the differences between Hive on Spark and Spark SQL’s Hive support, please refer to this article by Reynold: https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html
相关推荐
Spark-assembly-1.5.2-hadoop2.6.0.jar是Apache Spark的一个关键组件,主要用于在Scala环境中开发Spark应用程序。这个特定的版本(1.5.2)与Hadoop 2.6.0兼容,这意味着它可以无缝地运行在支持Hadoop 2.6.0的集群上...
Spark是Apache软件基金会下的一个开源大数据处理框架,其2.3.0版本是该框架的一个稳定版本,提供了高效、易用、可扩展的数据处理能力。Hadoop2.7是Hadoop生态系统中的一个版本,它为Spark提供了分布式存储的基础,即...
- **SQL**:Spark SQL提供了一种用于处理结构化数据的API,它集成了Hive查询语言。 - **Streaming**:Spark Streaming提供了基于微批处理的实时数据流处理能力。 - **MLlib**:Spark的机器学习库,包含各种算法和...
Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark的一个重要组件,它是一个集成了所有依赖项的JAR文件,被称为"uber JAR"或"fat JAR"。这个特定的版本(1.5.2)对应于Spark的历史版本,而hadoop2.6.0则表明它是针对...
想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现,那你就需要一份标准的数据进行测试,这个开源项目...
将Chicago Crime Dataset导入Neo4j 以下是将公开的芝加哥犯罪数据集导入Neo4j的说明。...Spark assembly has been built with Hive, including Datanucleus jars on classpath Using /Users/markneedham/projec
CarbonData支持SQL查询,与Hive等工具兼容性良好。 #### 二、环境准备 在开始安装CarbonData之前,需要确保已经完成了以下准备工作: 1. **更新系统**:确保系统的软件包是最新的。 2. **安装Platform Development...
spark-submit --master local data-validator-assembly-0.10.0.jar --help data-validator v0.10.0 Usage: data-validator [options] --version --verbose Print additional debug output. --config <value> ...
#### 一、Hive内部表与外部表的区别 在Hive中,根据表的定义方式不同,可以分为内部表(Managed Table)和外部表(External Table)。它们之间的主要区别在于数据的管理和生命周期。 - **内部表**:未被`external`...
cd spark/java mvn clean package assembly:single 第1步-导入数据 清洁(蒙古壳) use marketdata db.stock_prices.drop () 资料来源:cf。 进口 mongoimport nom_fichier.csv --type csv --headerline -d ...
[INFO] Apache CarbonData :: Assembly ...................... SUCCESS [ 15.719 s] [INFO] Apache CarbonData :: Hive .......................... SUCCESS [03:17 min] [INFO] Apache CarbonData :: presto ........