`
samuschen
  • 浏览: 410716 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

TPC-H on Hive

    博客分类:
  • hive
阅读更多

1)下载TPC-H的代码,用来生成所需要的数据
  http://www.tpc.org/tpch/spec/tpch_2_8_0.zip 或者
  http://www.tpc.org/tpch/default.asp         右边栏
  两版本略有不同


4)然后在tpch文件目录下,把makefile复制并改名成makefile,接着修改makefile文件
  shell> cp makefile.suite makefile
  shell> vim makefile
  makefile中相应项后面填写:
  CC      = gcc 

 # Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)  

 #                                  SQLSERVER, SYBASE  

 # Current values for MACHINE are:  ATT, DOS, HP, IBM, ICL, MVS, 

 #                                  SGI, SUN, U2200, VMS, LINUX, WIN32   

 # Current values for WORKLOAD are:  TPCH 

 DATABASE= SQLSERVER  

MACHINE = LINUX  

WORKLOAD = TPCH       

5)修改tpch.h文件
  修改其中的SQLSERVER段为:
  #ifdef  SQLSERVER
  #define GEN_QUERY_PLAN        "EXPLAIN;"
  #define START_TRAN                "START TRANSACTION;\n"
  #define END_TRAN                "COMMIT;\n"
  #define SET_OUTPUT                ""
  #define SET_ROWCOUNT                "limit %d;\n"
  #define SET_DBASE                "use %s;\n"
  #endif

6)执行makefile
  shell> make

7)生成需要用的数据
  shell> ./dbgen -s 1
  -s 数据规模因子,1为1G的数据量

8)在hive上建好八个表(这里有自带的脚本tpc-h/dss.ddl,将其按照hive的语法修改到dss.ddl.hive脚本)

运行  hive -f /home/cq/tpc-h/dss.ddl.hive

建好8个表

9)将生成的数据导入表中

hive>LOAD DATA LOCAL INPATH '/home/cq/tpc-h/data/supplier.tbl' INTO TABLE supplier ;

10)执行查询

  hive -f q1.sql;

 

分享到:
评论
1 楼 moudaen 2012-03-13  
请问楼主,我执行总后一条语句时,执行的是自带的1.sql,你当时修改了查询脚本吗?能否贴一个出来,谢谢!

相关推荐

    TPC-H_on_Hive_2009-08-14.tar.gz

    TPC-H_on_Hive_2009-08-14.tar.gz 是一个压缩包文件,其中包含了针对Hive的TPC-H测试工具。TPC-H是一个标准的决策支持系统(OLAP Online Analytical Processing)基准测试,主要用于评估大数据分析平台在处理复杂...

    SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures

    - **总体性能**:在TPC-H实验中,Impala比基于MapReduce的Hive快3.3倍至4.4倍,比基于Tez的Hive快2.1倍至2.8倍。 - **TPC-DS启发的实验**:对于这些实验,Impala表现出更明显的性能优势,比基于MapReduce的Hive快...

    TPCDS-Hive-On-Spark:在 Spark 上准备运行的 TPCDS 查询

    This Scala source allowsyou run 38 out of the 99 TPCDS queries (The Hive version supported by Spark SQL in the current release of IBM Open Platform available athttp://g01zcdwas002.ahe.pok.ibm....

    基于SQL-on-Hadoop查询引擎的日志挖掘及其应用.pdf

    使用TPC-H测试基准对SQL-on-Hadoop查询系统的决策支持能力进行了测试及评估。通过对实验数据的分析与解释,得到了一些关于系统性能的重要结论。 6. 日志数据计算与分析在证券行业的应用: 文章探讨了海量日志数据...

    译文 Blink and it's done1

    通过 **TPC-H** 测试和实际数据验证,BlinkDB 显示出显著的性能提升。在100台机器上处理数十TB的数据,其运行速度相对于 **Hive on MapReduce** 可以快150倍,比 **Shark** 快10到150倍,同时保持误差在2%到10%之间...

Global site tag (gtag.js) - Google Analytics