【Spark八十一】Hive in the spark assembly

bit1129

浏览: 1078330 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive
Spark

Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners:

1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.) and commands (e.g. SET <key> = <value>, ADD FILE, ADD JAR, etc.)

2. In most cases, Spark SQL simply delegates these statements to Hive, as they don’t need to issue any distributed jobs and don’t rely on the computation engine (Spark, MR, or Tez).
SELECT queries, CREATE TABLE ... AS SELECT ... statements and insertions

These statements are executed using Spark as the execution engine.

The Hive classes packaged in the assembly jar are used to provide entry points to Hive features, for example:

1. HiveQL parser
2. Talking to Hive metastore to execute DDL statements
3. Accessing UDF/UDAF/UDTF

As for the differences between Hive on Spark and Spark SQL’s Hive support, please refer to this article by Reynold: https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html

分享到：

【Hadoop十一】Hadoop MapReduce读写Redis | 【HBase七】HBase伪分布式安装

2015-03-16 10:54
浏览 1427
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-assembly-1.5.2-hadoop2.6.0jar包: Spark-assembly-1.5.2-hadoop2.6.0.jar是Apache Spark的一个关键组件，主要用于在Scala环境中开发Spark应用程序。这个特定的版本（1.5.2）与Hadoop 2.6.0兼容，这意味着它可以无缝地运行在支持Hadoop 2.6.0的集群上...

spark-2.3.0-bin-hadoop2.7版本.zip: Spark是Apache软件基金会下的一个开源大数据处理框架，其2.3.0版本是该框架的一个稳定版本，提供了高效、易用、可扩展的数据处理能力。Hadoop2.7是Hadoop生态系统中的一个版本，它为Spark提供了分布式存储的基础，即...

spark源代码部署及编译生成: - **SQL**：Spark SQL提供了一种用于处理结构化数据的API，它集成了Hive查询语言。 - **Streaming**：Spark Streaming提供了基于微批处理的实时数据流处理能力。 - **MLlib**：Spark的机器学习库，包含各种算法和...

ewbciywei.rar: Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark的一个重要组件，它是一个集成了所有依赖项的JAR文件，被称为"uber JAR"或"fat JAR"。这个特定的版本（1.5.2）对应于Spark的历史版本，而hadoop2.6.0则表明它是针对...

data-generator:如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现，那你就需要一份标准的数据进行测试，这个开源项目就是为了生成这样的标准数据: 想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现，那你就需要一份标准的数据进行测试，这个开源项目...

neo4j-spark-chicago: 将Chicago Crime Dataset导入Neo4j 以下是将公开的芝加哥犯罪数据集导入Neo4j的说明。...Spark assembly has been built with Hive, including Datanucleus jars on classpath Using /Users/markneedham/projec

carbondata的安装使用: CarbonData支持SQL查询，与Hive等工具兼容性良好。 #### 二、环境准备在开始安装CarbonData之前，需要确保已经完成了以下准备工作： 1. **更新系统**：确保系统的软件包是最新的。 2. **安装Platform Development...

data-validator:验证围绕Apache Spark构建的数据的工具: spark-submit --master local data-validator-assembly-0.10.0.jar --help data-validator v0.10.0 Usage: data-validator [options] --version --verbose Print additional debug output. --config <value> ...

Hadoop大数据常见问题及处理方法.docx: #### 一、Hive内部表与外部表的区别在Hive中，根据表的定义方式不同，可以分为内部表（Managed Table）和外部表（External Table）。它们之间的主要区别在于数据的管理和生命周期。 - **内部表**：未被`external`...

MUG-Nantes-Demo-Hadoop:适用于HadoopMongoDB连接器演示: cd spark/java mvn clean package assembly:single 第1步-导入数据清洁（蒙古壳） use marketdata db.stock_prices.drop () 资料来源：cf。进口 mongoimport nom_fichier.csv --type csv --headerline -d ...

carbondata-hadoop-1.3.0-all编译包: [INFO] Apache CarbonData :: Assembly ...................... SUCCESS [ 15.719 s] [INFO] Apache CarbonData :: Hive .......................... SUCCESS [03:17 min] [INFO] Apache CarbonData :: presto ........

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark八十一】Hive in the spark assembly

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Hive十九】Hive JDBC URL for Kerberos secured cluster

【Hive十八】Hive QL中使用配置的变量

【Hive十七】Hive Thrift Server HA配置

【Hive十六】Hive SQL Standard Based Hive Authorization

【Hive十五】Hive IO相关

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

最近访客更多访客>>