`
m635674608
  • 浏览: 5028495 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

sparksql与hive整合

 
阅读更多
hive 环境启动:
./hive --service metastore & 
./hive --service hiveserver2 &


spark配置
将 $HIVE_HOME/conf/hive-site.xml copy或者软链 到 $SPARK_HOME/conf/
将 $HIVE_HOME/lib/mysql-connector-java-5.1.12.jar copy或者软链到$SPARK_HOME/lib/
copy或者软链$SPARK_HOME/lib/ 是方便spark standalone模式使用


1.standalone模式
/spark/bin/spark-sql --master spark://spark-master:7077 --jars /spark/examples/jars/mysql-connector-java-5.1.42-bin.jar

2.yarn-client模式
/bin/spark-sql --master yarn-client --jars /spark/examples/jars/mysql-connector-java-5.1.42-bin.jar




-----------------------hive-site.xml------------------------

<configuration>
	<property>
		<name>hive.metastore.warehouse.dir</name>
		<value>/usr/hive/warehouse</value>
	</property>
	<property>
	  <name>hive.metastore.uris</name>
	  <value>thrift://master:9083</value>
    </property>
	<property>
		<name>hive.metastore.local</name>
		<value>true</value>
	</property>
	<property>
		<name>hive.exec.scratchdir</name>
		<value>/tmp/hive</value>
	</property>	
	<property>
		<name>javax.jdo.option.ConnectionURL</name>
		<value>jdbc:mysql://172.18.0.21:3306/hive_db?createDatabaseIfNoExist=true</value>
	</property>
	<property>
		<name>javax.jdo.option.ConnectionDriverName</name>
		<value>com.mysql.jdbc.Driver</value>
	</property>
	<property>
		<name>javax.jdo.option.ConnectionUserName</name>
		<value>root</value>
	</property>
	<property>
		<name>javax.jdo.option.ConnectionPassword</name>
		<value>hadoop</value>
	</property>
</configuration>

 

  参考

http://blog.csdn.net/stark_summer/article/details/48443147

分享到:
评论

相关推荐

    sparksql连接mysql,hive

    通过以上步骤,我们可以实现SparkSQL与MySQL和Hive的整合,从而在一个统一的环境中处理结构化和非结构化的数据。这种集成对于数据科学家和数据工程师来说非常有用,因为它们可以利用SparkSQL的高性能和SQL接口来处理...

    大数据开发简历项目部分.pdf

    职责描述涉及数据源收集和清洗、hive表模型的设计和调优、SparkSql与Hive整合的数据ETL处理,以及hbase的数据存储和调优。 4. 康明斯发动机信息分析系统(互联网) 该项目为康明斯公司提供发动机信息分析处理平台,...

    Atlas Spark SQL血缘分析,Hive Hook

    与Hive的集成使得Spark SQL可以访问Hive Metastore中的表和分区,进一步增强了Spark的灵活性和可扩展性。 Apache Atlas的Hive Hook是在Hive执行器中插入的一个组件,它能够在Hive操作执行前后捕获元数据变更信息,...

    03_SparkSql.docx

    - **易整合**:SparkSQL能够轻松地与其他Spark组件集成,如Spark Core、Spark Streaming等,这使得开发人员能够在同一个项目中同时使用不同的Spark功能。 - **统一的数据访问方式**:无论是内存中的数据还是存储在...

    SparkSQL入门与数据分析实践-源代码.zip

    - **Hive兼容性**:SparkSQL可以直接读取Hive元数据和表,这对于已经使用Hive的组织来说是非常有用的特性。 - **数据源**:SparkSQL支持多种数据源,如Parquet、JSON、CSV、 JDBC/ODBC等,方便用户从各种存储系统中...

    02_尚硅谷大数据技术之SparkSql1

    - **易整合**:SparkSQL将SQL查询与Spark编程模型无缝结合,提供了统一的接口。 - **统一的数据访问**:用户可以通过相同的API访问不同来源的数据,例如HDFS、HBase或Cassandra。 - **DataFrame和DataSet**:这两...

    Spark机器学习视频第10课.最终获取用户的收藏以及订单转换率

    课程目录: ...课时18:Spark与mongodb整合 课时19:Spark预测收藏以及给用户推荐的产品存储进mongodb 课时20:操作RDD需要注意点,以及Spark内存分配资源调优 课时21:Spark整个学习过程及其总结

    大数据技术之SparkSQL

    - 易整合:Spark SQL能够轻松地与其他Spark组件集成,如Spark Streaming和Spark MLlib。 - 统一的数据访问:它提供了一种统一的方式来访问多种数据源,包括HDFS、Cassandra、Hive等。 - 兼容Hive:Spark SQL可以...

    SparkSql.pdf

    3)兼容Hive:Spark SQL能够兼容并优化Hive中的查询,使得已经在Hive上开发的应用能够无缝迁移到Spark SQL上。 4)标准的数据连接:Spark SQL支持标准的JDBC和ODBC连接,方便与其他系统进行数据交换。 DataFrame是...

    SparkSQL在携程的实践_张翼@携程.zip

    1. **数据集成**:SparkSQL支持多种数据源,包括HDFS、Cassandra、Hive等,这使得携程能够方便地整合来自不同系统的数据,进行统一的分析和处理。 2. **实时数据分析**:携程可能会利用SparkSQL的实时处理能力,对...

    Elasticsearch加速SparkSQL查询-李振炜

    最后,文章提出了后续计划,包括充分利用ES的检索能力来丰富SparkSQL表达式的下推功能,以及计划完成Spark与Kylin的整合。Kylin是一个开源的分布式分析引擎,能够为大数据提供SQL查询能力、OLAP分析和高并发访问等...

    Spark SQL源码概览.zip

    Spark SQL通过Hive Metastore服务与Hive数据存储进行交互,支持HQL查询,并兼容Hive的表和UDF。这使得Spark SQL可以无缝地整合到现有的Hadoop生态系统中。 5. **数据源**: Spark SQL支持多种数据源,如Parquet、...

    《Spark SQL编程指南》

    Spark SQL是Apache Spark的核心组件之一,它整合了SQL查询与DataFrame API,使得数据处理变得更加便捷高效。这本书从基础到高级,全方位地介绍了Spark SQL的使用方法和实践技巧。 在书中,读者将首先了解Spark SQL...

    Hadoop+Spark生态系统操作与实战指南.epub

     全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...

    Spark学习之路【SparkSQL入门解析】

    【2.1】易整合 Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据,可在Java,Scala,Python和R中使用 【2.2】统一的数据访问方式 DataFrame和SQL提供了一种访问各种数据源的通用方法,包括...

    【面试宝典】2021年超全超详细的最新大数据开发面试题,附答案解析(一版).pdf

    17. SparkSQL使用:SparkSQL支持使用DataFrame API或SQL语句进行数据查询和处理,选择哪种方式取决于具体需求和个人偏好。 18. RDD操作:如reduceByKey与groupByKey的性能比较,通常reduceByKey更适合。 19. Spark...

    SparkCore.pdf

    SparkSQL允许用户通过SQL或Hive的SQL方言(HQL)查询结构化数据,支持多种数据源,如Hive表、Parquet和JSON等。SparkStreaming是Spark处理实时数据流的组件,其API与SparkCore中的RDDAPI高度对应,支持实时数据的...

Global site tag (gtag.js) - Google Analytics