spark sql 使用hive作为数据源

m635674608

浏览: 5028605 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

本来是很简单的一件事，代码也不复杂，如下：

代码：

public class LocationFromHiveDataSource {

   @SuppressWarnings("deprecation")
   public static void main(String[] args) {
       // 首先还是创建SparkConf
       SparkConf conf = new SparkConf()
               .setAppName("LocationFromHiveDataSource");
       // 创建JavaSparkContext
       JavaSparkContext sc = new JavaSparkContext(conf);
       // 创建HiveContext，注意，这里，它接收的是SparkContext作为参数，不是JavaSparkContext，其实也可以使用JavaSparkContext，只不过内部也是做了sc.sc()的操作
       HiveContext hiveContext = new HiveContext(sc.sc());
       DataFrame goodStudentsDF = hiveContext.sql("SELECT * FROM student");
       goodStudentsDF.show();
       sc.close();
   }

}

打成jar包后，使用Spark-submit提交即可，提交脚本如下：

#!/bin/bash
/usr/local/spark/bin/spark-submit --jars /usr/local/spark/lib/MySQL-connector-Java-5.1.18-bin.jar --class com.telecom.location.Hive.LocationFromHiveDataSource --files /usr/local/hive/conf/hive-site.xml /usr/local/sparkshell/wingpay.jar

当然你得在hive中创建了表，里面最好有点数据，如果顺利，屏幕上会输出令你觉得很舒心的类似于使用mysql查看数据的结果，但是如果你的spark版本和Hadoop版本不一致的话

那你就哭吧，哭完了之后，重新下载一个跟hadoop一致的spark预编译版本或者自己编译一个。因为有些spark版本根本就没有将hive相关的东西打包进spark的编译包，这时就会报各种类找不到，方法找不到。

虽然例子很简单，但是换spark之前我把hive也换成了最新的了，然后还是按照之前一样启动，过程那叫一个曲折，新版本实用hive命令之前得使用schematool初始化metadata之类的，如：

[root@hadoop0 bin]# ./schematool -initSchema -dbType mysql

通过动手来跑这个程序，才发现以前那种看到了这个例子觉得很简单懒得去动手做的习惯真的是太蠢了，平时多流汗，战时少流血是有道理的，如果开始学的时候认认真真的跑一遍，实际上使用的时候就不会忙得手忙脚乱。

http://blog.csdn.net/kimyoungvon/article/details/51783382

分享到：

Hive on Spark 与Spark SQL比较 | Spark SQL 最简单例子

2017-05-15 14:16
浏览 783
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论