`

sparksql与hive整合

阅读更多

hive配置

编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:

<property>
 <name>hive.metastore.uris</name>
 <value>thrift://master:9083</value>
 <description>Thrift uri for the remote metastore. Used by metastore client to connect to remote metastore.</description></property>12345

启动hive metastore

启动 metastore: $hive --service metastore &
查看 metastore: $jobs[1]+  Running                 hive --service metastore &

关闭 metastore:$kill %1kill %jobid,1代表job id1234567891011

spark配置

将 $HIVE_HOME/conf/hive-site.xml copy或者软链 到 $SPARK_HOME/conf/将 $HIVE_HOME/lib/mysql-connector-java-5.1.12.jar copy或者软链到$SPARK_HOME/lib/copy或者软链$SPARK_HOME/lib/ 是方便spark standalone模式使用123

启动spark-sql

  1. standalone模式

    ./bin/spark-sql --master spark:master:7077 --jars /home/stark_summer/spark/spark-1.4/spark-1.4.1/lib/mysql-connector-java-5.1.12.jar
  • 1

  • yarn-client模式

  • $./bin/spark-sql --master yarn-client --jars /home/stark_summer/spark/spark-1.4/spark-1.4.1/lib/mysql-connector-java-5.1.12.jar执行 sql:
    select count(*) from o2o_app;结果:302Time taken: 0.828 seconds, Fetched 1 row(s)2015-09-14 18:27:43,158 INFO  [main] CliDriver (SessionState.java:printInfo(536)) - Time taken: 0.828 seconds, Fetched 1 row(s)
    spark-sql> 2015-09-14 18:27:43,160 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - Finished stage: org.apache.spark.scheduler.StageInfo@5939ed302015-09-14 18:27:43,161 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - task runtime:(count: 1, mean: 242.000000, stdev: 0.000000, max: 242.000000, min: 242.000000)2015-09-14 18:27:43,161 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,161 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    242.0 ms        242.0 ms        242.0 ms        242.0 ms        242.0 ms        242.0 ms    242.0 ms 242.0 ms        242.0 ms2015-09-14 18:27:43,162 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - fetch wait time:(count: 1, mean: 0.000000, stdev: 0.000000, max: 0.000000, min: 0.000000)2015-09-14 18:27:43,162 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,162 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0.0 ms  0.0 ms  0.0 ms  0.0 ms  0.0 ms  0.0 ms  0.0 ms  0.0 ms  0.0 ms2015-09-14 18:27:43,163 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - remote bytes read:(count: 1, mean: 31.000000, stdev: 0.000000, max: 31.000000, min: 31.000000)2015-09-14 18:27:43,163 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,163 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    31.0 B  31.0 B  31.0 B  31.0 B  31.0 B  31.0 B  31.0 B  31.0 B  31.0 B2015-09-14 18:27:43,163 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - task result size:(count: 1, mean: 1228.000000, stdev: 0.000000, max: 1228.000000, min: 1228.000000)2015-09-14 18:27:43,163 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,163 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    1228.0 B        1228.0 B        1228.0 B        1228.0 B        1228.0 B        1228.0 B    1228.0 B 1228.0 B        1228.0 B2015-09-14 18:27:43,164 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - executor (non-fetch) time pct: (count: 1, mean: 69.834711, stdev: 0.000000, max: 69.834711, min: 69.834711)2015-09-14 18:27:43,164 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,164 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    70 %    70 %    70 %    70 %    70 %    70 %    70 %    70 %    70 %2015-09-14 18:27:43,165 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - fetch wait time pct: (count: 1, mean: 0.000000, stdev: 0.000000, max: 0.000000, min: 0.000000)2015-09-14 18:27:43,165 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,165 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -     0 %     0 %     0 %     0 %     0 %     0 %     0 %     0 %     0 %2015-09-14 18:27:43,166 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) - other time pct: (count: 1, mean: 30.165289, stdev: 0.000000, max: 30.165289, min: 30.165289)2015-09-14 18:27:43,166 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    0%      5%      10%     25%     50%     75%     90%     95%     100%2015-09-14 18:27:43,166 INFO  [SparkListenerBus] scheduler.StatsReportListener (Logging.scala:logInfo(59)) -    30 %    30 %    30 %    30 %    30 %    30 %    30 %    30 %    30 %12345678910111213141516171819202122232425262728293031
    1. yarn-cluster模式

    ./bin/spark-sql --master yarn-cluster  --jars /home/dp/spark/spark-1.4/spark-1.4.1/lib/mysql-connector-java-5.1.12.jarError: Cluster deploy mode is not applicable to Spark SQL shell.
    Run with --help for usage help or --verbose for debug output2015-09-14 18:28:28,291 INFO  [Thread-0] util.Utils (Logging.scala:logInfo(59)) - Shutdown hook called
    
    Cluster deploy mode 不支持的123456

    启动 spark-shell

    1. standalone模式

    ./bin/spark-shell --master spark:master:7077 --jars /home/stark_summer/spark/spark-1.4/spark-1.4.1/lib/mysql-connector-java-5.1.12.jar1
    1. yarn-client模式

    ./bin/spark-shell --master yarn-client   --jars /home/dp/spark/spark-1.4/spark-1.4.1/lib/mysql-connector-java-5.1.12.jarsqlContext.sql("from o2o_app SELECT count(appkey,name1,name2)").collect().foreach(println)1234

    尊重原创,拒绝转载,http://blog.csdn.net/stark_summer/article/details/48443147

    0
    2
    分享到:
    评论
    1 楼 cfan37 2015-09-22  

    相关推荐

      sparksql连接mysql,hive

      通过以上步骤,我们可以实现SparkSQL与MySQL和Hive的整合,从而在一个统一的环境中处理结构化和非结构化的数据。这种集成对于数据科学家和数据工程师来说非常有用,因为它们可以利用SparkSQL的高性能和SQL接口来处理...

      大数据开发简历项目部分.pdf

      职责描述涉及数据源收集和清洗、hive表模型的设计和调优、SparkSql与Hive整合的数据ETL处理,以及hbase的数据存储和调优。 4. 康明斯发动机信息分析系统(互联网) 该项目为康明斯公司提供发动机信息分析处理平台,...

      Atlas Spark SQL血缘分析,Hive Hook

      与Hive的集成使得Spark SQL可以访问Hive Metastore中的表和分区,进一步增强了Spark的灵活性和可扩展性。 Apache Atlas的Hive Hook是在Hive执行器中插入的一个组件,它能够在Hive操作执行前后捕获元数据变更信息,...

      03_SparkSql.docx

      - **易整合**:SparkSQL能够轻松地与其他Spark组件集成,如Spark Core、Spark Streaming等,这使得开发人员能够在同一个项目中同时使用不同的Spark功能。 - **统一的数据访问方式**:无论是内存中的数据还是存储在...

      SparkSQL入门与数据分析实践-源代码.zip

      - **Hive兼容性**:SparkSQL可以直接读取Hive元数据和表,这对于已经使用Hive的组织来说是非常有用的特性。 - **数据源**:SparkSQL支持多种数据源,如Parquet、JSON、CSV、 JDBC/ODBC等,方便用户从各种存储系统中...

      02_尚硅谷大数据技术之SparkSql1

      - **易整合**:SparkSQL将SQL查询与Spark编程模型无缝结合,提供了统一的接口。 - **统一的数据访问**:用户可以通过相同的API访问不同来源的数据,例如HDFS、HBase或Cassandra。 - **DataFrame和DataSet**:这两...

      Spark机器学习视频第10课.最终获取用户的收藏以及订单转换率

      课程目录: ...课时18:Spark与mongodb整合 课时19:Spark预测收藏以及给用户推荐的产品存储进mongodb 课时20:操作RDD需要注意点,以及Spark内存分配资源调优 课时21:Spark整个学习过程及其总结

      大数据技术之SparkSQL

      - 易整合:Spark SQL能够轻松地与其他Spark组件集成,如Spark Streaming和Spark MLlib。 - 统一的数据访问:它提供了一种统一的方式来访问多种数据源,包括HDFS、Cassandra、Hive等。 - 兼容Hive:Spark SQL可以...

      SparkSql.pdf

      3)兼容Hive:Spark SQL能够兼容并优化Hive中的查询,使得已经在Hive上开发的应用能够无缝迁移到Spark SQL上。 4)标准的数据连接:Spark SQL支持标准的JDBC和ODBC连接,方便与其他系统进行数据交换。 DataFrame是...

      SparkSQL在携程的实践_张翼@携程.zip

      1. **数据集成**:SparkSQL支持多种数据源,包括HDFS、Cassandra、Hive等,这使得携程能够方便地整合来自不同系统的数据,进行统一的分析和处理。 2. **实时数据分析**:携程可能会利用SparkSQL的实时处理能力,对...

      Elasticsearch加速SparkSQL查询-李振炜

      最后,文章提出了后续计划,包括充分利用ES的检索能力来丰富SparkSQL表达式的下推功能,以及计划完成Spark与Kylin的整合。Kylin是一个开源的分布式分析引擎,能够为大数据提供SQL查询能力、OLAP分析和高并发访问等...

      Spark SQL源码概览.zip

      Spark SQL通过Hive Metastore服务与Hive数据存储进行交互,支持HQL查询,并兼容Hive的表和UDF。这使得Spark SQL可以无缝地整合到现有的Hadoop生态系统中。 5. **数据源**: Spark SQL支持多种数据源,如Parquet、...

      《Spark SQL编程指南》

      Spark SQL是Apache Spark的核心组件之一,它整合了SQL查询与DataFrame API,使得数据处理变得更加便捷高效。这本书从基础到高级,全方位地介绍了Spark SQL的使用方法和实践技巧。 在书中,读者将首先了解Spark SQL...

      Hadoop+Spark生态系统操作与实战指南.epub

       全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...

      Spark学习之路【SparkSQL入门解析】

      【2.1】易整合 Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据,可在Java,Scala,Python和R中使用 【2.2】统一的数据访问方式 DataFrame和SQL提供了一种访问各种数据源的通用方法,包括...

      【面试宝典】2021年超全超详细的最新大数据开发面试题,附答案解析(一版).pdf

      17. SparkSQL使用:SparkSQL支持使用DataFrame API或SQL语句进行数据查询和处理,选择哪种方式取决于具体需求和个人偏好。 18. RDD操作:如reduceByKey与groupByKey的性能比较,通常reduceByKey更适合。 19. Spark...

      SparkCore.pdf

      SparkSQL允许用户通过SQL或Hive的SQL方言(HQL)查询结构化数据,支持多种数据源,如Hive表、Parquet和JSON等。SparkStreaming是Spark处理实时数据流的组件,其API与SparkCore中的RDDAPI高度对应,支持实时数据的...

    Global site tag (gtag.js) - Google Analytics