在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往往提高离线数据分析的性能,而且列式存储具有更高的压缩比,能够节省一定的磁盘IO和网络IO传输。
基础环境如下:
Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1
先看下列式存储的两个代表框架:
Apache Parquet比较适合存储嵌套类型的数据,如json,avro,probuf,thrift等
Apache ORC是对RC格式的增强,支持大多数hive支持的数据类型,主要在压缩和查询层面做了优化。
具体请参考这篇文章:http://wenda.chinahadoop.cn/question/333
在hive中的文件格式主要如下几种:
textfile:默认的文本方式
Sequencefile:二进制格式
rcfile:面向列的二进制格式
orc:rcfile的增强版本,列式存储
parquet:列式存储,对嵌套类型数据支持较好
hive文件支持压缩方式:
这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:
gzip,bizp,snappy,lzo
文件格式可以与压缩类似任意组合,从而达到比较的压缩比。
下面看下具体以orc为例子的场景实战:
需求:
将Hbase的表的数据,加载到Hive中一份,用来离线分析使用。
看下几个步骤:
(1)集成Hive+Hbase,使得Hive可以关联查询Hbase表的数据,但需要注意的是,hbase表中的每个字段都有时间戳版本,而进行hive映射时是没办法
指定的timestamp的,在hive1.x之后可虽然可以指定,但是还是有问题的,不建议使用,如果想要标识这一个rowkey的最后修改或者更新时间,可以单独添加一个字段到hbase表中,
然后就可以使用Hive映射了。
关于hive+hbase集成,请参考这篇文章:http://qindongliang.iteye.com/blog/2101094
(2)使用hive建立一个外部表,关联hbase,sql文件如下:
drop table if exists etldb_hbase;
CREATE EXTERNAL TABLE etldb_hbase(rowkey string,
cnum string,
conn string,
cntype string,
cct string,
ctitle string,
curl string,
murl string,
mcat1 string,
mcat2 string,
mcat3 string,
mtitle string,
mconn string,
mcourtid string,
mdel string,
ctime string
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,
content:casenum,
content:conn,
content:contentType,
content:contentabstract,
content:title,
content:url,
meta:websiteType,
meta:documentType,
meta:spiderTypeFirst,
meta:spiderTypeSecond,
meta:title,
meta:content,
meta:hearOrganization,
meta:isdelete,
content:createTime
")
TBLPROPERTIES ("hbase.table.name" = "ETLDB");
执行sql文件的hive命令:hive -f xxx.sql
执行sql字符串的hive命令: hive -e " select * from person "
(3)由于orc格式,无法直接从text加载到hive表中,所以需要加入一个中间临时表,用于中转数据,先将
text数据导入一个文件格式weitextfile的表,然后再把这个表的数据直接导入orc的表,当然现在我们的数据源
在hbase中,所以,先建立hive关联hbase的表,然后在建里一个orc的表,用来放数据,sql如下:
drop table if exists etldb;
CREATE TABLE etldb(rowkey string,
cnum string,
conn string,
cntype string,
cct string,
ctitle string,
curl string,
murl string,
mcat1 string,
mcat2 string,
mcat3 string,
mtitle string,
mconn string,
mcourtid string,
mdel string,
ctime string
)
stored as orc
--stored as textfile;
tblproperties ("orc.compress"="SNAPPY");
--从临时表,加载数据到orc中
insert into table etldb select * from etldb_hbase;
(4)加载完成后,就可以离线分析这个表了,用上orc+snappy的组合,查询时比直接
hive关联hbase表查询性能要高一点,当然缺点是数据与数据源hbase里的数据不同步,需要定时增量或者全量,用于离线分析。
有什么问题 可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园
分享到:
相关推荐
每个文件可能按照特定的格式(如CSV、Parquet或ORC)存储,以便于Hive进行读取和分析。在实际的数据分析中,我们可能会对这些数据进行进一步的清洗、聚合、关联等操作,以生成更有价值的业务洞察。同时,为了保证...
在实际使用中,为了提升 Hive 的性能,需要进行一些优化,如调整内存参数以减少 MapReduce 中的数据交换,选择高效的文件格式以减小存储空间和提高读取速度,合理设计分区以减少数据扫描量,以及利用其他策略如 ...
- 掌握ORC格式的优点和使用场景,了解如何在Hive中创建、加载和查询ORC表。 - 分析guli_video_orc和guli_video_user_orc数据集,编写并执行SQL来提取有用信息,例如用户观看习惯、热门视频等。 - 将所学应用到实际...
Cloudera Hive 是一个基于 Hadoop 的数据仓库工具,它允许使用 SQL 类语法查询和管理存储在分布式文件系统中的大规模数据集。Hive 提供了一种结构化的方式,将无结构或半结构化的数据转化为可查询的数据表,使得数据...
此外,Hive支持多种数据存储格式,如TextFile、Parquet、ORC等,每种格式都有其特定的优缺点,选择哪种取决于具体需求。 整合Kafka和Hive,一般有以下步骤: 1. **设置Kafka连接**: 首先,需要配置Hive连接到Kafka...
此外,Hive还支持多种存储格式,如TextFile、ORC、Parquet,选择合适的存储格式可以有效地压缩数据,减少存储空间并提升查询速度。 总的来说,"apache-hive-2.1.1-bin.tar.gz"中的`bin`文件夹及其包含的`hive.cmd`...
Hive将数据存储在HDFS上,数据文件格式可选如TextFile、SequenceFile、ORC、Parquet等,每种格式有其特定的优缺点。Hive支持分桶(Bucketing)和分区(Partitioning)来优化查询性能,分桶是按指定列的哈希值将数据...
- 存储格式(TextFile、SequenceFile、RCFile、ORCFile、Parquet等); - 压缩格式的选择(gzip、bzip、snappy等); - 如何根据实际项目选择最合适的存储与压缩方式。 ##### 第二阶段:Hive实战开发 1. **Hive...
- **支持多种数据格式**: 支持多种存储格式,如TextFile、SequenceFile、ORC等。 - **高容错性**: 基于Hadoop的分布式文件系统(HDFS),具有高容错性。 - **应用场景**: - **数据分析**: 用于离线批处理数据,...
- **存储格式**:Hive 可以选择多种存储格式,如 TextFile、SequenceFile、ORC、Parquet 等,不同的格式对压缩和查询性能有不同的影响。 - **外部表**:外部表仅保存元数据,数据存储在 HDFS 上的指定位置,删除...
- 根据业务需求选择合适的存储格式,如TextFile、ORC、Parquet等,每种格式都有其优缺点。 - 考虑数据分区和桶化,以提高查询性能。 - 使用适当的查询优化策略,如避免全表扫描,利用索引等。 - 定期维护和优化Hive...
- 为了提高性能,可以配置 Hive 的缓存机制,如启用 ORCFile、Parquet 等高效存储格式。 - 调整 Hive 的并行执行度,通过 `set mapred.reduce.tasks` 控制并行任务数量。 - 使用分区策略减少数据扫描量,如按日期...
- **文件格式**:Hive支持多种文件格式,如TextFile、SequenceFile、RCFile、ORCFile和Parquet等,其中Parquet和ORCFile等列式存储格式提供了更好的压缩和查询性能。 5. **Hive基本操作** - **创建表**:Hive提供...
为了提高Hive的性能,你可以考虑使用ORCFile或Parquet格式存储数据,这两个格式都支持列式存储,可以大大提高查询速度。同时,合理地设计表的分区和桶,也能显著提升查询效率。 总结,Hive 0.12在Hadoop 2.2上的...
- Hive 支持多种文件格式,如 TextFile、SequenceFile、RCFile、ORC 和 Parquet,其中 ORC 和 Parquet 为列式存储,效率更高。 5. **UDF (User Defined Functions)**: - 用户可以通过编写 Java 类实现自定义函数...
6. **数据类型和格式**:Flink支持多种数据类型和文件格式,包括Hive支持的ORC、Parquet等列式存储格式,这使得数据在Flink和Hive之间可以无缝迁移。 7. **批流一体**:Flink 1.9引入了批流一体的概念,可以处理...
- **数据存储**:Hive可以将数据存储在HDFS上,支持多种文件格式如TextFile、SequenceFile、ORC和Parquet。 - **数据查询**:提供SQL接口,支持复杂的查询、聚合、JOIN等操作。 - **数据转换**:Hive能通过UDF...
- 选择合适的存储格式,如Parquet或ORC,这些格式支持高效的列式存储。 - 调整Hive和Hadoop的相关配置参数,如`hive.exec.parallel`用于开启并行执行等。 ### 总结 Hive作为一款重要的大数据处理工具,在离线数据...
数据文件格式多样,如TextFile、SequenceFile、RCFile、ORC和Parquet,每种格式都有其特定的优缺点。 6. **其他Hive操作**:除了基本的创建表、加载数据和查询,Hive还支持数据更新(如ALTER TABLE)、视图创建...