sparksql与hive整合 - zzm - ITeye博客

`

m635674608

浏览: 5028495 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

明兜3号：部署落地+业务迁移玩转k8s进阶与企业级实践技能（又名：Ku ...
Kubernetes系统常见运维技巧
q328965539：牛掰啊资料收集的很全面
HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）
guichou： fluent挂载了/var/lib/kubelet/pods目 ...
kubernetes上部署Fluentd+Elasticsearch+kibana日志收集系统
xu982604405： System.setProperty("java.r ...
jmx rmi 穿越防火墙问题及jmxmp的替代方案
大漠小帆：麻烦问下，“获取每个Item相似性最高的前N个Item”，这个 ...
协同过滤推荐算法在MapReduce与Spark上实现对比

sparksql与hive整合

阅读更多

hive 环境启动：
./hive --service metastore & 
./hive --service hiveserver2 &


spark配置
将 $HIVE_HOME/conf/hive-site.xml copy或者软链 到 $SPARK_HOME/conf/
将 $HIVE_HOME/lib/mysql-connector-java-5.1.12.jar copy或者软链到$SPARK_HOME/lib/
copy或者软链$SPARK_HOME/lib/ 是方便spark standalone模式使用


1.standalone模式
/spark/bin/spark-sql --master spark://spark-master:7077 --jars /spark/examples/jars/mysql-connector-java-5.1.42-bin.jar

2.yarn-client模式
/bin/spark-sql --master yarn-client --jars /spark/examples/jars/mysql-connector-java-5.1.42-bin.jar




-----------------------hive-site.xml------------------------

<configuration>
	<property>
		<name>hive.metastore.warehouse.dir</name>
		<value>/usr/hive/warehouse</value>
	</property>
	<property>
	  <name>hive.metastore.uris</name>
	  <value>thrift://master:9083</value>
    </property>
	<property>
		<name>hive.metastore.local</name>
		<value>true</value>
	</property>
	<property>
		<name>hive.exec.scratchdir</name>
		<value>/tmp/hive</value>
	</property>	
	<property>
		<name>javax.jdo.option.ConnectionURL</name>
		<value>jdbc:mysql://172.18.0.21:3306/hive_db?createDatabaseIfNoExist=true</value>
	</property>
	<property>
		<name>javax.jdo.option.ConnectionDriverName</name>
		<value>com.mysql.jdbc.Driver</value>
	</property>
	<property>
		<name>javax.jdo.option.ConnectionUserName</name>
		<value>root</value>
	</property>
	<property>
		<name>javax.jdo.option.ConnectionPassword</name>
		<value>hadoop</value>
	</property>
</configuration>

参考

http://blog.csdn.net/stark_summer/article/details/48443147

分享到：

spark RDD中foreachPartition和foreach说 ... | spark-submit工具参数说明

2017-05-22 18:01
浏览 1272
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

sparksql连接mysql，hive: 通过以上步骤，我们可以实现SparkSQL与MySQL和Hive的整合，从而在一个统一的环境中处理结构化和非结构化的数据。这种集成对于数据科学家和数据工程师来说非常有用，因为它们可以利用SparkSQL的高性能和SQL接口来处理...

大数据开发简历项目部分.pdf: 职责描述涉及数据源收集和清洗、hive表模型的设计和调优、SparkSql与Hive整合的数据ETL处理，以及hbase的数据存储和调优。 4. 康明斯发动机信息分析系统（互联网）该项目为康明斯公司提供发动机信息分析处理平台，...

Atlas Spark SQL血缘分析，Hive Hook: 与Hive的集成使得Spark SQL可以访问Hive Metastore中的表和分区，进一步增强了Spark的灵活性和可扩展性。 Apache Atlas的Hive Hook是在Hive执行器中插入的一个组件，它能够在Hive操作执行前后捕获元数据变更信息，...

03_SparkSql.docx: - **易整合**：SparkSQL能够轻松地与其他Spark组件集成，如Spark Core、Spark Streaming等，这使得开发人员能够在同一个项目中同时使用不同的Spark功能。 - **统一的数据访问方式**：无论是内存中的数据还是存储在...

SparkSQL入门与数据分析实践-源代码.zip: - **Hive兼容性**：SparkSQL可以直接读取Hive元数据和表，这对于已经使用Hive的组织来说是非常有用的特性。 - **数据源**：SparkSQL支持多种数据源，如Parquet、JSON、CSV、 JDBC/ODBC等，方便用户从各种存储系统中...

02_尚硅谷大数据技术之SparkSql1: - **易整合**：SparkSQL将SQL查询与Spark编程模型无缝结合，提供了统一的接口。 - **统一的数据访问**：用户可以通过相同的API访问不同来源的数据，例如HDFS、HBase或Cassandra。 - **DataFrame和DataSet**：这两...

Spark机器学习视频第10课.最终获取用户的收藏以及订单转换率: 课程目录： ...课时18：Spark与mongodb整合课时19：Spark预测收藏以及给用户推荐的产品存储进mongodb 课时20：操作RDD需要注意点，以及Spark内存分配资源调优课时21：Spark整个学习过程及其总结

大数据技术之SparkSQL: - 易整合：Spark SQL能够轻松地与其他Spark组件集成，如Spark Streaming和Spark MLlib。 - 统一的数据访问：它提供了一种统一的方式来访问多种数据源，包括HDFS、Cassandra、Hive等。 - 兼容Hive：Spark SQL可以...

SparkSql.pdf: 3）兼容Hive：Spark SQL能够兼容并优化Hive中的查询，使得已经在Hive上开发的应用能够无缝迁移到Spark SQL上。 4）标准的数据连接：Spark SQL支持标准的JDBC和ODBC连接，方便与其他系统进行数据交换。 DataFrame是...

SparkSQL在携程的实践_张翼@携程.zip: 1. **数据集成**：SparkSQL支持多种数据源，包括HDFS、Cassandra、Hive等，这使得携程能够方便地整合来自不同系统的数据，进行统一的分析和处理。 2. **实时数据分析**：携程可能会利用SparkSQL的实时处理能力，对...

Elasticsearch加速SparkSQL查询-李振炜: 最后，文章提出了后续计划，包括充分利用ES的检索能力来丰富SparkSQL表达式的下推功能，以及计划完成Spark与Kylin的整合。Kylin是一个开源的分布式分析引擎，能够为大数据提供SQL查询能力、OLAP分析和高并发访问等...

Spark SQL源码概览.zip: Spark SQL通过Hive Metastore服务与Hive数据存储进行交互，支持HQL查询，并兼容Hive的表和UDF。这使得Spark SQL可以无缝地整合到现有的Hadoop生态系统中。 5. **数据源**： Spark SQL支持多种数据源，如Parquet、...

《Spark SQL编程指南》: Spark SQL是Apache Spark的核心组件之一，它整合了SQL查询与DataFrame API，使得数据处理变得更加便捷高效。这本书从基础到高级，全方位地介绍了Spark SQL的使用方法和实践技巧。在书中，读者将首先了解Spark SQL...

Hadoop＋Spark生态系统操作与实战指南.epub: 　全书共12章，大致分为3个部分，第1部分（第1~7章）讲解Hadoop的原生态组件，包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装，以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...

Spark学习之路【SparkSQL入门解析】: 【2.1】易整合 Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据，可在Java，Scala，Python和R中使用【2.2】统一的数据访问方式 DataFrame和SQL提供了一种访问各种数据源的通用方法，包括...

【面试宝典】2021年超全超详细的最新大数据开发面试题，附答案解析(一版).pdf: 17. SparkSQL使用：SparkSQL支持使用DataFrame API或SQL语句进行数据查询和处理，选择哪种方式取决于具体需求和个人偏好。 18. RDD操作：如reduceByKey与groupByKey的性能比较，通常reduceByKey更适合。 19. Spark...

SparkCore.pdf: SparkSQL允许用户通过SQL或Hive的SQL方言（HQL）查询结构化数据，支持多种数据源，如Hive表、Parquet和JSON等。SparkStreaming是Spark处理实时数据流的组件，其API与SparkCore中的RDDAPI高度对应，支持实时数据的...

Global site tag (gtag.js) - Google Analytics