一套数据，多种引擎续---两种数据格式（Parquet/ORCfile）浅析

jiezhu2007

浏览: 247351 次
性别:
来自: 深圳

最近访客更多访客>>

Sehriff

tory7108121

Marln

taowanli

博主相关

博客

微博

相册

留言

关于我

博客专栏

: hadoop技术学习
浏览量：145251

: 大数据产业分析
浏览量：3000

文章分类

社区版块

存档分类

博客分类：

hadoop技术专栏

Parquet orcfile impala hive hadoop

最近主要在研究大数典型应用adhoc query，要实现秒级的adhoc query，通常有3种思路：

1、用搜索技术，将查询都建立索引，然后用搜索技术来实现。这种技术目前主要限制是索引建立和存储成本高，索引建立不及时，例如支付宝的higo。

2、实时计算，对不能指定维度的查询，理论上认为是实时计算，每个列上建立函数索引，这种典型的代表是mesa。关于mesa，前面我有篇简单的介绍性文章《mesa介绍:google 近实时数据仓库系统》，深入的大家可以看一看google的论文。淘宝的garuda公开的材料来看，主要也是实时计算的思路，但是目前garuda公开的资料不多，不知道目前这个系统到什么阶段了。

3、最后一种思路是利用MPP架构，通过并行扫描的技术来实现adhoc query。前面写了两篇分析文章《实时分析系统(HIVE/HBASE/IMPALA)浅析》和《 MPP DB 是大数据实时分析系统未来的选择吗？》。这两篇文章最新偶能发现被公司内部拿去作为参考，说明研究这块问题的人还不少，能拿我的文章去参考，应该还是比较认可我的思路的吧。O(∩_∩)O~

以上是业界目前我所知道的3种典型的思路，朋友们要是有新的思路欢迎多交流。

关于第3种思路，目前业界有很多引擎，各有优缺点，最近我萌发了另外一种考虑《一套数据，多种引擎（impala/Hive/kylin）》。前面说了这么久，关键还是要回到今天要讨论的正题上来，怎么做到一套数据？

数据分 metadata和 raw data。Impala一开始的思路就是用来改进hive的不足，所以和Hive天然共元数据，这里就不讨论元数据了。我们今天来简单对比分析一下业界典型的两种数据存储格式Parquet和ORCfile，分别是impala和Hive推荐使用的数据格式。

一、首先来看下ORCfile。

Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式，是对之前的RCFile存储格式的优化，是HortonWorks开源的。看下orcfile的存储格式：

可以看到每个Orc文件由1个或多个stripe组成，每个stripe250MB大小，这个Stripe实际相当于之前的rcfile里的RowGroup概念，不过大小由4MB->250MB，这样应该能提升顺序读的吞吐率。每个Stripe里有三部分组成，分别是Index Data,Row Data,Stripe Footer：

每个Stripe都包含index data、row data以及stripe footer，Stripe footer包含流位置的目录，Row data在表扫描的时候会用到。

Index data包含每列的最大和最小值以及每列所在的行。行索引里面提供了偏移量，它可以跳到正确的压缩块位置。

通过行索引，可以在stripe中快速读取的过程中可以跳过很多行，尽管这个stripe的大小很大。在默认情况下，最大可以跳过10000行。

因为可以通过过滤预测跳过很多行，因而可以在表的 secondary keys 进行排序，从而可以大幅减少执行时间。比如你的表的主分区是交易日期，那么你可以对次分区（state、zip code以及last name）进行排序。

每个文件有一个File Footer，这里面存的是每个Stripe的行数，每个Column的数据类型信息等；每个文件的尾部是一个PostScript，这里面记录了整个文件的压缩类型以及FileFooter的长度信息等。在读取文件时，会seek到文件尾部读PostScript，从里面解析到File Footer长度，再读FileFooter，从里面解析到各个Stripe信息，再读各个Stripe，即从后往前读。

ORCFILE主要特点：

混合存储结构，先按行存储，一组行数据叫stripes，stripes内部按列式存储。

支持各种复杂的数据类型，比如： datetime, decimal, 以及一些复杂类型(struct, list, map, and union)；

在文件中存储了一些轻量级的索引数据；

基于数据类型的块模式压缩：

a、integer类型的列用行程长度编码(run-length encoding)

b、String类型的列用字典编码(dictionary encoding)；

二、再来看看Parquet

我们的开源项目 Parquet 是 Hadoop 上的一种支持列式存储文件格式，起初只是 Twitter 和 Coudera 在合作开发，发展到现在已经有包括 Criteo公司在内的许多其他贡献者了. Parquet 用 Dremel 的论文中描述的方式，把嵌套结构存储成扁平格式。

尽管 Parquet 是一个面向列的文件格式，不要期望每列一个数据文件。Parquet 在同一个数据文件中保存一行中的所有数据，以确保在同一个节点上处理时一行的所有列都可用。Parquet 所做的是设置 HDFS 块大小和最大数据文件大小为 1GB，以确保 I/O 和网络传输请求适用于大批量数据(What Parquet does is to set an HDFS block size and a maximum data file size of 1GB, to ensure that I/O and network transfer requests apply to large batches of data)。

在成G的空间内，一组行的数据会重新排列，以便第一行所有的值被重组为一个连续的块，然后是第二行的所有值，依此类推。

为了在列式存储中可以表达嵌套结构，用叫做 definition level和repetition level两个值描述。分别表达某个值在整个嵌套格式中，最深嵌套层数，以及在同一个嵌套层级中第几个值。

Parquet 使用一些自动压缩技术，例如行程编码(run-length encoding,RLE) 和字典编码(dictionary encoding)，基于实际数据值的分析。一当数据值被编码成紧凑的格式，使用压缩算法，编码的数据可能会被进一步压缩。Impala 创建的 Parquet 数据文件可以使用 Snappy, GZip, 或不进行压缩；Parquet 规格还支持 LZO 压缩，但是目前 Impala 不支持 LZO 压缩的 Parquet 文件。

除了应用到整个数据文件的 Snappy 或 GZip 压缩之外，RLE 和字段编码是 Impala 自动应用到 Parquet 数据值群体的压缩技术。

综合来看，ORCfiel和parquet本质上都是列上存储，大同小异。parquet主要特点是支持嵌套格式，ORCfile主要特点是strips中有轻量级的index data。所以这两种数据存储格式完全是可以相互借鉴融合的。

列示存储不是hadoop首创，是从传统数据库中发展而来。最后来看看wiki中介绍的列示存储的历史：

Column stores or transposed files have been implemented from the early days of DBMS development. TAXIR was the first application of a column-oriented database storage system with focus on information-retrieval in biology[11] in 1969. Statistics Canada implemented the RAPID system[12] in 1976 and used it for processing and retrieval of the Canadian Census of Population and Housing as well as several other statistical applications. RAPID was shared with other statistical organizations throughout the world and used widely in the 1980s. It continued to be used by Statistics Canada until the 1990s.

KDB was the first commercially available column-oriented database developed in 1993 followed in 1995 by Sybase IQ. However, that has changed rapidly since about 2004 with many open source and commercial implementations. MonetDB was released under an open-source license on September 30, 2004,[13] followed closely by the now defunct C-Store.[14] Vertica was eventually developed out of C-Store, while the MonetDB-related X100 project evolved into VectorWise.[15][16]

查看图片附件

分享到：

过早优化是万恶之源 | 浅论Hadoop应用工作思路

2014-11-15 19:30
浏览 10985
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

全球变风量（VAV）系统市场研究：年复合增长率（CAGR）为 5.8%: 在全球建筑行业不断追求节能与智能化发展的浪潮中，变风量（VAV）系统市场正展现出蓬勃的发展潜力。根据 QYResearch 报告出版商的深入调研统计，预计到 2031 年，全球变风量（VAV）系统市场销售额将飙升至 1241.3 亿元，在 2025 年至 2031 年期间，年复合增长率（CAGR）为 5.8%。这一令人瞩目的数据，不仅彰显了 VAV 系统在当今建筑领域的重要地位，更预示着其未来广阔的市场前景。变风量系统的起源可追溯到 20 世纪 60 年代的美国。它犹如建筑空调系统中的 “智能管家”，能够敏锐地感知室内负荷或室内所需参数的变化，通过维持恒定的送风温度，自动、精准地调节空调系统的送风量，从而确保室内各项参数始终满足空调系统的严格要求。从系统构成来看，变风量系统主要由四个基本部分协同运作。变风量末端设备，包括 VAV 箱和室温控制器，如同系统的 “神经末梢”，负责接收室内环境变化的信号并做出初步响应；空气处理及输送设备则承担着对空气进行净化、加热、冷却等处理以及高效输送的重任；风管系统，涵盖新风、排风、送风、回风等管道，构建起了空气流通的 “高速公路”；而自动控制系统宛

《基于YOLOv8的跆拳道训练系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

探究ChatGPT情感化交互对其用户情绪健康的多方法研究: 内容概要：本文探讨了ChatGPT这种高级语音模式的人工智能聊天机器人与用户的互动对其情绪健康的影响。研究采用了两种互补的方法：大规模平台数据分析和随机对照试验（RCT）。平台数据部分通过对超过400万次对话进行隐私保护的大规模自动化分析以及对4000多名用户的调查，揭示了高频率使用者表现出更多的情感依赖和较低的社会交往意愿。RCT部分则通过近1000名参与者为期28天的研究，发现语音模型相较于文本模型能带来更好的情绪健康效果，但长时间使用可能导致负面后果。此外，初始情绪状态较差的用户在使用更具吸引力的语音模型时，情绪有所改善。适合人群：对人机交互、情感计算和社会心理学感兴趣的科研人员和技术开发者。使用场景及目标：本研究旨在为AI聊天机器人的设计提供指导，确保它们不仅能满足任务需求，还能促进用户的心理健康。同时，也为政策制定者提供了关于AI伦理使用的思考。其他说明：研究强调了长期使用AI聊天机器人可能带来的复杂心理效应，特别是对于那些已经感到孤独或社交孤立的人来说，过度依赖可能会加剧这些问题。未来的研究应该更加关注这些极端情况下的用户体验。

Java反射性能优化：深入探讨setAccessible与MethodHandle的技术差异及应用场景: Java 反射（Reflection）是一种强大的机制，允许程序在运行时检查和操作类的成员变量和方法。然而，传统的 `setAccessible(true)` 方式虽然便捷，但存在安全性问题，并且性能相对较低。在 Java 7 引入 `MethodHandle` 后，我们可以通过 `MethodHandles.Lookup.findVirtual()` 提供更优雅、高效的方式来访问对象属性。本文将对比这两种反射方式，并分析它们的优缺点。

loongdomShop.tar.gz: loongdomShop.tar.gz

人工智能与人类行为对聊天机器人社会心理效应的纵向随机对照研究: 内容概要：本文探讨了不同交互模式（文本、中性语音、吸引人语音）和对话类型（开放式、非个人化、个人化）对聊天机器人使用者的心理社会效果（如孤独感、社交互动、情感依赖、不当使用）的影响。研究表明，在初期阶段，语音型聊天机器人比文本型更能缓解孤独感并减少情感依赖，但随着每日使用时间增加，这种优势逐渐消失，尤其是对于中性语音聊天机器人。此外，个人话题对话略微增加了孤独感，而非个人话题则导致更高的情感依赖。总体而言，高频率使用聊天机器人的用户表现出更多的孤独感、情感依赖和不当使用，同时减少了真实人际交往。研究还发现，某些个体特征（如依恋倾向、情绪回避）使用户更容易受到负面影响。适合人群：心理学家、社会学家、人工智能研究人员以及关注心理健康和人机交互的专业人士。使用场景及目标：①帮助理解不同类型聊天机器人对用户心理健康的潜在影响；②为设计更健康的人工智能系统提供指导；③制定政策和规范，确保聊天机器人的安全和有效使用。其他说明：研究强调了进一步探索聊天机器人管理情感内容而不引发依赖或替代人际关系的重要性，呼吁更多跨学科的研究来评估长期影响。

MP4575GF-Z 产品规格书: MP4575GF-Z MP4575 TSSOP-20 降压型可调DC-DC电源芯片

界面设计_SwiftUI_习惯养成_项目管理_1742850611.zip: 界面设计_SwiftUI_习惯养成_项目管理_1742850611.zip

免安装版的logic软件包支持波形实时查看内含驱动文件: 免安装版的logic软件包。支持波形实时查看。内含驱动文件。

基于Springboot+Mysql的学生毕业离校系统(含LW+PPT+源码+系统演示视频+安装说明).zip: 1. **系统名称**：学生毕业离校系统 2. **技术栈**：Java技术、MySQL数据库、Spring Boot框架、B/S架构、Tomcat服务器、Eclipse开发环境 3. **系统功能**： - **管理员功能**：首页、个人中心、学生管理、教师管理、离校信息管理、费用结算管理、论文审核管理、管理员管理、留言板管理、系统管理。 - **学生功能**：首页、个人中心、费用结算管理、论文审核管理、我的收藏管理。 - **教师功能**：首页、个人中心、学生管理、离校信息管理、费用结算管理、论文审核管理。

WebSocket测试Demo程序: 配套文章:https://blog.csdn.net/gust2013/article/details/139608432

蓝凌OA系统V15.0管理员手册: 蓝凌OA系统V15.0管理员手册

《基于YOLOv8的生物样本识别系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

mips-gcc520-glibc222编译工具链.zip: mips-gcc520-glibc222编译工具链.zip

社交网络_React_Native_开发教程_学习资源_1742847416.zip: app开发

Swift编程语言的基础特性与应用开发入门教程: 内容概要：本文档详细介绍了Swift编程语言的基础知识，涵盖语言特点、基础语法、集合类型、控制流、函数定义、面向对象编程、可选类型、错误处理、协议与扩展以及内存管理等方面的内容。此外还简要提及了Swift与UIKit/SwiftUI的关系，并提供了进一步学习的资源推荐。通过这份文档，读者可以全面了解Swift的基本概念及其在iOS/macOS/watchOS/tvOS平台的应用开发中的使用方法。适合人群：初学者或者希望从其他编程语言转向Swift的开发者。使用场景及目标：帮助读者快速上手Swift编程，掌握其基本语法和特性，能够独立完成简单的程序编写任务，为进一步学习高级主题如并发编程、图形界面设计打下坚实的基础。阅读建议：由于Swift是一门现代化的语言，拥有许多独特的特性和最佳实践方式，在学习过程中应当多加练习并尝试理解背后的原理。同时利用提供的官方文档和其他辅助材料加深印象。

《基于YOLOv8的泰拳训练辅助系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的室内装修质量检测系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的雕塑识别系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

微服务_图书阅读_APP_实践项目_1742847756.zip: app开发

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论