1)下载TPC-H的代码,用来生成所需要的数据
http://www.tpc.org/tpch/spec/tpch_2_8_0.zip
或者
http://www.tpc.org/tpch/default.asp
右边栏
两版本略有不同
4)然后在tpch文件目录下,把makefile复制并改名成makefile,接着修改makefile文件
shell> cp makefile.suite makefile
shell> vim makefile
makefile中相应项后面填写:
CC = gcc
# Current values for DATABASE are: INFORMIX, DB2, TDAT
(Teradata)
# SQLSERVER, SYBASE
#
Current values for MACHINE are: ATT, DOS, HP, IBM, ICL, MVS,
#
SGI, SUN, U2200, VMS, LINUX, WIN32
#
Current values for WORKLOAD are: TPCH
DATABASE= SQLSERVER
MACHINE =
LINUX
WORKLOAD = TPCH
5)修改tpch.h文件
修改其中的SQLSERVER段为:
#ifdef SQLSERVER
#define GEN_QUERY_PLAN "EXPLAIN;"
#define START_TRAN "START TRANSACTION;\n"
#define END_TRAN "COMMIT;\n"
#define SET_OUTPUT ""
#define SET_ROWCOUNT "limit %d;\n"
#define SET_DBASE "use %s;\n"
#endif
6)执行makefile
shell> make
7)生成需要用的数据
shell> ./dbgen -s 1
-s 数据规模因子,1为1G的数据量
8)在hive上建好八个表(这里有自带的脚本tpc-h/dss.ddl,将其按照hive的语法修改到dss.ddl.hive脚本)
运行 hive -f /home/cq/tpc-h/dss.ddl.hive
建好8个表
9)将生成的数据导入表中
hive>LOAD DATA LOCAL INPATH '/home/cq/tpc-h/data/supplier.tbl' INTO TABLE supplier ;
10)执行查询
hive -f q1.sql;
分享到:
相关推荐
TPC-H_on_Hive_2009-08-14.tar.gz 是一个压缩包文件,其中包含了针对Hive的TPC-H测试工具。TPC-H是一个标准的决策支持系统(OLAP Online Analytical Processing)基准测试,主要用于评估大数据分析平台在处理复杂...
- **总体性能**:在TPC-H实验中,Impala比基于MapReduce的Hive快3.3倍至4.4倍,比基于Tez的Hive快2.1倍至2.8倍。 - **TPC-DS启发的实验**:对于这些实验,Impala表现出更明显的性能优势,比基于MapReduce的Hive快...
This Scala source allowsyou run 38 out of the 99 TPCDS queries (The Hive version supported by Spark SQL in the current release of IBM Open Platform available athttp://g01zcdwas002.ahe.pok.ibm....
使用TPC-H测试基准对SQL-on-Hadoop查询系统的决策支持能力进行了测试及评估。通过对实验数据的分析与解释,得到了一些关于系统性能的重要结论。 6. 日志数据计算与分析在证券行业的应用: 文章探讨了海量日志数据...
通过 **TPC-H** 测试和实际数据验证,BlinkDB 显示出显著的性能提升。在100台机器上处理数十TB的数据,其运行速度相对于 **Hive on MapReduce** 可以快150倍,比 **Shark** 快10到150倍,同时保持误差在2%到10%之间...