`

基于spark1.3.1的spark-sql实战-02

阅读更多

Hive Tables

将HIVE_HOME/conf/hive-site.xml 文件copy到SPARK_HOME/conf/下

 When not configured by the hive-site.xml, the context automatically creates metastore_db and warehouse in the current directory.

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sqlContext.sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sqlContext.sql("FROM src SELECT key, value").collect().foreach(println)

JDBC To Other Databases

加载mysql数据库:test,表:t_user_new返回DataFrame

 
查询数据:

 

Performance Tuning

spark 程序操作JDBC:

 

 

 

 

 

 
未完待续~~~
 
 
 
 
 
 
尊重原创,未经允许不得转载:http://blog.csdn.net/stark_summer/article/details/45843803
 
 
 
 
 
 
 
0
0
分享到:
评论

相关推荐

    spark-1.3.1-bin-hadoop2.6.tgz

    Spark-1.3.1-bin-hadoop2.6.tgz是一个针对Linux和Windows系统的安装包,包含了Apache Spark 1.3.1版本以及与Hadoop 2.6兼容的依赖。这个压缩包为用户提供了在本地或集群环境中搭建Spark计算平台的基础。 1. **Spark...

    spark-1.3.1-bin-2.2.0_gong.tgz

    本资源“spark-1.3.1-bin-2.2.0_gong.tgz”是一个针对Hadoop 2.4版本优化的Spark 1.3.1发行版的压缩包。该版本在Spark的早期版本中引入了多项改进和新特性,旨在提升数据处理效率和用户友好性。 首先,Spark 1.3.1...

    spark-1.3.1

    3. **Spark SQL**:Spark 1.3.1引入了Spark SQL,它允许开发者使用SQL或者DataFrame API来处理结构化数据。DataFrame是Spark SQL中的一层抽象,比RDD更易用且效率更高,因为它自动处理了数据类型和schema。 4. **...

    hadoop 2.6.0 及Spark1.3.1平台搭建20150505-优化版

    本指南将详细介绍如何在基于 Hadoop 2.6.0 的环境中搭建 Spark 1.3.1 平台,以实现高效的数据处理。 首先,我们需要进行虚拟化环境的准备。这里推荐使用 VMware Workstation 11 作为虚拟化软件,它为开发和测试提供...

    spark1.3.1源码下载

    3. **Spark Streaming**:基于微批处理的实时流处理框架,可以处理连续的数据流并进行实时分析。 4. **MLlib**:Spark的机器学习库,包含了各种算法如分类、回归、聚类、协同过滤等,以及模型评估和调优工具。 5. **...

    spark_api_1.3.1

    在 Spark 1.3.1 中,Spark SQL 支持了 Hive Metastore,允许用户通过 JDBC 或者 Thrift 服务器访问 Hive 表,使得现有的 Hive 应用可以轻松地迁移到 Spark 上。同时,DataFrame API 的引入,为用户提供了更高级别的...

    spark1.3源码

    首先,Spark 1.3.0的核心特性之一是加强了SQL支持,引入了DataFrame API。DataFrame可以看作是表格形式的数据集合,提供了类似于SQL的查询接口,使得非Java或Scala背景的开发人员也能轻松使用Spark进行数据处理。...

    SPARK相关资料

    Spark官方API是开发人员编写Spark程序的基础,它包括了RDD(弹性分布式数据集)、DataFrame、Dataset等核心组件,以及Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图处理库)等高级功能的详细接口和...

    Sparkml实战

    ### Spark MLlib实战 #### 1.1 聚类实例 ##### 1.1.1 算法说明 **聚类(Cluster Analysis)** 是一种重要的无监督学习方法,其核心任务是将一组对象划分为若干个簇(cluster),使得同一个簇内的对象尽可能相似,而...

    Spark相关知识点精选

    - **1.3.1 数据科学任务**: Spark因其强大的数据处理能力而广泛应用于数据科学领域,如大数据分析、机器学习模型训练等。 - **1.3.2 数据处理应用**: 在企业级应用中,Spark常被用于处理大量结构化或非结构化数据,...

    TPC-DS测试包及tpc测试标准说明

    `tpcds_1.3.1.pdf`是TPC-DS的规范文档,详细定义了测试的场景、数据模型、查询集合以及评估准则。在这个版本中,你可以找到关于数据仓库设计、数据生成、查询执行和性能度量等方面的详细信息。数据模型通常包括多个...

    国赛二等奖-全国大学生大数据技能竞赛指导手册

    Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射成表并提供类SQL查询功能。这部分内容涵盖了MySQL Server的安装、Hive的配置及常见问题解决方法。 ##### 3.7 安装Spark Apache Spark是一种快速...

    智慧银行大数据可视化展示平台建设和应用总体解决方案.docx

    - **1.3.1 数据分析综合服务平台**:负责数据的深入分析,为决策提供科学依据。 - **1.3.2 量收系统**:用于记录和管理客户的交易量和收益信息,是分析客户行为的重要数据来源。 - **1.3.3 金融大数据平台**:汇集...

    自我介绍13.docx大数据项目+项目介绍+面试辅导

    Sqoop 1.4.6用于数据导入导出,MySQL 5.6.24作为数据库,Azkaban 2.5.0进行工作流调度,Zookeeper 3.4.10用于分布式协调,Hbase 1.3.1作为NoSQL数据库,Phoenix 4.14.1提供Hbase的SQL查询,Canal 1.1.2用于数据同步...

Global site tag (gtag.js) - Google Analytics