HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

m635674608

浏览: 5062990 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据库
hbase

一、概述

手机图片或者像淘宝这样的网站中的产品图片特点：

（1）、大量手机用户同时在线，执行上传、下载、read等图片操作

（2）、文件数量较大，大小一般为几K到几十K左右

HDFS存储特点：

（1）流式读取方式，主要是针对一次写入，多次读出的使用模式。写入的过程使用的是append的方式。

（2）设计目的是为了存储超大文件，主要是针对几百MB，GB，甚至TB的文件

（3）该分布式系统构建在普通PC机组成的集群上，大大降低了构建成本，并屏蔽了系统故障，使得用户可以专注于自身的操作运算。

HDFS与小图片存储的共通点和相悖之处：

（1）都建立在分布式存储的基本理念之上

（2）均要降低成本，利用普通的PC机构建系统集群

（1） HDFS不适合大量小文件的存储，因namenode将文件系统的元数据存放在内存中，因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放1million的文件至少消耗300MB内存，如果要存放1billion的文件数目的话会超出硬件能力

（2） HDFS适用于高吞吐量，而不适合低时间延迟的访问。如果同时存入1million的files，那么HDFS 将花费几个小时的时间。

（3）流式读取的方式，不适合多用户写入，以及任意位置写入。如果访问小文件，则必须从一个datanode跳转到另外一个datanode，这样大大降低了读取性能。

二、HDFS文件操作流程

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

reading：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

writing：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

三、HDFS自带的小文件存储解决方案

对于小文件问题，hadoop自身提供了三种解决方案：Hadoop Archive、 Sequence File 和 CombineFileInputFormat

（1） Hadoop Archive

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

归档为bar.har文件，该文件的内部结构为：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

创建存档文件的问题：

1、存档文件的源文件目录以及源文件都不会自动删除需要手动删除

2、存档的过程实际是一个mapreduce过程，所以需要需要hadoop的mapreduce的支持

3、存档文件本身不支持压缩

4、存档文件一旦创建便不可修改，要想从中删除或者增加文件，必须重新建立存档文件

5、创建存档文件会创建原始文件的副本，所以至少需要有与存档文件容量相同的磁盘空间

（2） Sequence File

sequence file由一系列的二进制的<key, value="" style="box-sizing: border-box;">对组成，其中key为小文件的名字，value的file content。

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

创建sequence file的过程可以使用mapreduce工作方式完成

对于index，需要改进查找算法

对小文件的存取都比较自由，也不限制用户和文件的多少，但是该方法不能使用append方法，所以适合一次性写入大量小文件的场景

（3） CombineFileInputFormat

CombineFileInputFormat是一种新的inputformat，用于将多个文件合并成一个单独的split，另外，它会考虑数据的存储位置。

该方案版本比较老，网上资料甚少，从资料来看应该没有第二种方案好。

四、WebGIS解决方案概述

在地理信息系统中，为了方便传输通常将数据切分为KB大小的文件存储在分布式文件系统中，论文结合WebGIS数据的相关特征，将相邻地理位置的小文件合并成一个大的文件，并为这些文件构建索引。论文中将小于16MB的文件当做小文件进行合并处理，将其合并成64MB的block并构建索引。

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

从以上索引结构和文件存储方式可以看出，index是一般的定长hash索引，并且采用的是存储全局index文件的方式

read的过程是将小文件append到下文件后边，然后更新索引的过程

delete文件的过程采用lazy模式，更改的是FVFlag，在空间重新分配的过程中，才会根据该flag删除文件。

五、BlueSky解决方案概述

BlueSky是中国电子教学共享系统，主要存放的教学所用的ppt文件和视频文件，存放的载体为HDFS分布式存储系统。在用户上传PPT文件的同时，系统还会存储一些文件的快照，作为用户请求ppt时可以先看到这些快照，以决定是否继续浏览，用户对文件的请求具有很强的关联性，当用户浏览ppt 时，其他相关的ppt和文件也会在短时间内被访问，因而文件的访问具有相关性和本地性。

paper主要提出了两个基本观点：

（1）将属于同一课件的小文件合并成一个大文件，从而减轻namenode的压力，提高小文件的存储效率

（2）提出了一种两级预取机制以提高小文件的读取效率，（索引文件预取和数据文件预取）索引文件预取是指当用户访问某个文件时，该文件所在的block对应的索引文件被加载到内存中，这样，用户访问这些文件时不必再与namenode交互了。数据文件预取是指用户访问某个文件时，将该文件所在课件中的所有文件加载到内存中，这样，如果用户继续访问其他文件，速度会明显提高。

BlueSky上传文件的过程：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

BlueSky阅览文件的过程：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

文件合并：

文件合并过程如果合并之后文件的大小小于block64MB的大小则直接存放到一个block中。（合并之后的文件包括local index文件）

如果合并之后的文件大小大于64MB有两种方式split这个大文件：

1、 local index文件、ppt文件、standresolution picture series存放在一个block中，剩下的picture series存在在其他的block中。

2、在相邻block的连接处填充空白文件，具体过程：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

文件映射：

文件的命名方式，分离的预取图片有其自身的命名方式，具体见paper。文件映射过程中，除了block中的局部索引文件之外，还有一个全局映像文件。该文件存放的内容为

根据全局mapping table 就可以根据merged file name 和 block Id到namenode上得到datanode的信息，然后到根据<datanodeinfo, block="" style="box-sizing: border-box;">到具体的机器上找到相应的block获取到localindex file，根据original file name从local index file中查到从而定位到data。根据预取策略，在此过程中也会预取到local index file 和相关的file

六、facebookHayStack解决方案概述

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

haystack是一个不同于HDFS的分布式系统，如果想在HDFS的基础上构建小文件存储系统，个人认为可以参考借鉴其索引结构的设计。

1、 directory 中有logical volume id<->physicalvolume id。根据<key, key="" alternative="" style="box-sizing: border-box;">可以通过directory拼出来http:////<machine< a="" style="box-sizing: border-box;">id>/ 。因此在directory端存在着映射以及<key, alternative="" volume="" logical="" key,="" style="box-sizing: border-box;">映射

2、根据url到store端之后，可以根据logicalvolume id获得相应的physical volume的位置，然后physical中存在super block，根据映射<key, alternative="" key,="" offset="" flag,="" size,="" style="box-sizing: border-box;">可以得到photo数据

七、TFS解决方案概述

http://code.taobao.org/p/tfs/src/

TFS（Taobao !FileSystem）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构，可将文件名映射到文件的物理地址，简化了文件的访问流程，一定程度上为TFS提供了良好的读写性能。

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

TFS的块大小可以通过配置项来决定，通常使用的块大小为64M。TFS的设计目标是海量小文件的存储，所以每个块中会存储许多不同的小文件。!DataServer进程会给Block中的每个文件分配一个ID(File ID，该ID在每个Block中唯一)，并将每个文件在Block中的信息存放在和Block对应的Index文件中。这个Index文件一般都会全部 load在内存，除非出现!DataServer服务器内存和集群中所存放文件平均大小不匹配的情况。

TFS中之所以可以使用namenode存放元数据信息的一个原因在于不像HDFS的元数据需要存放，filename与block id的映射以及block id与datanode的映射。在TFS中没有file的概念，只有block 的映射信息。所有的小文件被拼接成block。所以namenode中只需要存放的映射以及的映射。这样一来元数据信息就会减少很多，从而解决HDFS的namenode的瓶颈问题。

在TFS中，将大量的小文件(实际用户文件)合并成为一个大文件，这个大文件称为块(Block)。TFS以Block的方式组织文件的存储。每一个Block在整个集群内拥有唯一的编号，这个编号是由NameServer进行分配的，而DataServer上实际存储了该Block。在!NameServer节点中存储了所有的Block的信息，一个Block存储于多个!DataServer中以保证数据的冗余。对于数据读写请求，均先由!NameServer选择合适的!DataServer节点返回给客户端，再在对应的!DataServer节点上进行数据操作。!NameServer需要维护Block信息列表，以及Block与!DataServer之间的映射关系，其存储的元数据结构如下：

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

八、一种提高云存储小文件效率的解决方案

http://www.chinacloud.cn/show.aspx?&id=8105&cid=30

（美国西北太平洋国家实验室2007年的一份研究报告表明，他们系统中有1 200万个文件，其中94％的文件小于64 MB，58％的小于64 kB。在一些具体的科研计算环境中，也存在大量的小文件，例如，在某些生物学计算中可能会产生3 000万个文件，而其平均大小只有190 kB。）

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

系统为每个用户建立了3种队列：

序列文件队列（SequenceFile queue，SFQ），

序列文件操作队列（SequenceFile operation queue，SFOQ），

备用队列（Backup queue，BQ）。

其中，SFQ用于小文件的合并，SFOQ用于对合并后小文件的操作，BQ用于操作的小文件数超过SFQ或SFOQ长度的情况。

HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝（TFS）

http://www.open-open.com/lib/view/open1330605869374.html

分享到：

HTTP Keep-Alive模式 | HttpClient4.0 Http连接池长连接

2016-05-25 23:33
浏览 2964
评论(1)
分类:编程语言
查看更多

1 楼 q328965539 2019-05-13

牛掰啊资料收集的很全面

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HDFS小文件处理方案: 除了Hadoop官方提供的解决方案之外，还有一些来自业界的实际应用案例，如Facebook的HayStack和淘宝的TFS。 ##### 1. WebGIS 解决方案 - **背景**：在地理信息系统中，为了便于传输，数据通常会被分割成较小的文件...

开源分布式文件系统: 对于特定的业务场景，分布式文件系统也提供了不同的解决方案。比如，Facebook的Haystack主要设计用于存储海量图片，具有单次写入、多次读取的特性，并且支持高效的图片检索。Google的文件系统（GoogleFS/HDFS）则是...

基于无偏振转换吸收器的多重干涉理论，探讨透反射计算与S参数特殊处理，结合Matlab脚本实现分析,Comsol无偏振转换吸收器的多重干涉理论：透反射计算与S参数特殊处理详解，辅以Matlab脚本实现: 基于无偏振转换吸收器的多重干涉理论，探讨透反射计算与S参数特殊处理，结合Matlab脚本实现分析,Comsol无偏振转换吸收器的多重干涉理论：透反射计算与S参数特殊处理详解，辅以Matlab脚本实现,Comsol无偏振转吸收器多重干涉理论。包含透反射计算，S参数特殊处理，Matlab脚本等。 ,Comsol;无偏振转换吸收器;多重干涉理论;透反射计算;S参数特殊处理;Matlab脚本,Comsol偏振转换吸收器：多重干涉理论与透反射计算

【毕业设计】springboot+Vue农产品贸易管理系统【源码+论文+答辩ppt+开题报告+任务书】.zip: 【项目资源】：包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】：所有源码都经过严格测试，可以直接运行。功能在确认正常工作后才上传。【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】：项目具有较高的学习借鉴价值，也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说，可以在这些基础代码上进行修改和扩展，实现其他功能。【沟通交流】：有任何使用上的问题，欢迎随时与博主沟通，博主会及时解答。鼓励下载和使用，并欢迎大家互相学习，共同进步。

【毕业设计】基于SpringBoot + Mybatis +Vue商品管理系统【源码+论文+答辩ppt+开题报告+任务书】.zip: 【项目资源】：包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】：所有源码都经过严格测试，可以直接运行。功能在确认正常工作后才上传。【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】：项目具有较高的学习借鉴价值，也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说，可以在这些基础代码上进行修改和扩展，实现其他功能。【沟通交流】：有任何使用上的问题，欢迎随时与博主沟通，博主会及时解答。鼓励下载和使用，并欢迎大家互相学习，共同进步。

MATLAB下实现碳捕集与垃圾焚烧虚拟电厂优化调度：电转气协同调度的策略与实现,MATLAB下实现碳捕集与垃圾焚烧虚拟电厂优化调度：电转气协同调度的复现与实践,MATLAB代码：计及电转气协同的含碳捕: MATLAB下实现碳捕集与垃圾焚烧虚拟电厂优化调度：电转气协同调度的策略与实现,MATLAB下实现碳捕集与垃圾焚烧虚拟电厂优化调度：电转气协同调度的复现与实践,MATLAB代码：计及电转气协同的含碳捕集与垃圾焚烧电厂优化调度关键词：碳捕集电厂需求响应优化调度电转气协同调度参考文档：《计及电转气协同的含碳捕集与垃圾焚烧电厂优化调度》复现程序仿真平台：MATLAB+CPLEX 使用的是yalmip+cplex求解器完成求解 ,碳捕集;虚拟电厂;需求响应;优化调度;电转气协同调度;MATLAB+CPLEX;yalmip+cplex求解器。,MATLAB仿真平台下虚拟电厂协同调度：电转气协同与碳捕集优化复现程序

knn，knn资源，基于KNN算法的数字分类器项目，包含：数据集，数字分类器的实现，kd树，图像矩阵转换为向量，测试集处理等: knn，knn资源，基于KNN算法的数字分类器项目，包含：数据集，数字分类器的实现，kd树，图像矩阵转换为向量，测试集处理等。

【带全部数据】易优CMSAPP响应式作文新闻资讯博客网站源码，EyouCMSAPP博客网站源码: 易优CMSAPP响应式作文新闻资讯博客网站源码，EyouCMSAPP博客网站源码。适用于博客、文章、资讯、其他类网站源码开发使用。模板自带eyoucms内核，无需再下载eyou系统，原创设计、手工书写DIV+CSS，完美兼容IE7+、Firefox、Chrome、360浏览器等；主流浏览器；结构容易优化；多终端均可正常预览。

【毕业设计】Python的Django-html深度学习屋内烟雾检测方法源码（完整前后端+mysql+说明文档+LW+PPT）.zip: 【毕业设计】Python的Django-html深度学习屋内烟雾检测方法源码（完整前后端+mysql+说明文档+LW+PPT）.zip

毕业设计基于Python的Django-html基于循环神经网络的情感分类系统源码（完整前后端+mysql+说明文档+LW+PPT）.zip: 在软件的实现过程中，首先对情感分类的任务进行了明确，包括数据的预处理、特征提取和模型训练等环节。其次，通过实验反复测试软件的准确性和稳定性，实验结果表明，开发完成的软件能够准确地识别用户的留言情感，具有较高的准确率和召回率。最后，本文总结了软件的特点和优势，并提出了未来的研究方向。该情感分类系统的实现可作为软件维护人员的辅助工具，为用户提供更加精准的服务，同时也为深度学习在情感分类领域的研究提供了一定的参考价值。关键词：循环神经网络；情感分类；GRU框架；python

STC12C5A60S2单片机实现Modbus通讯与触摸屏操作的无实物硬件编程转换,STC12C5A60S2单片机实现Modbus通讯：从FX1N程序到触摸屏人机界面的编程转换,STC12C5A60S: STC12C5A60S2单片机实现Modbus通讯与触摸屏操作的无实物硬件编程转换,STC12C5A60S2单片机实现Modbus通讯：从FX1N程序到触摸屏人机界面的编程转换,STC12C5A60S2单片机做Modbus通讯，FX1N基本程序转成单片机程序，可以通过触摸屏人机界面操作，没有实物硬件 ,STC12C5A60S2单片机; Modbus通讯; FX1N基本程序转换; 触摸屏人机界面操作; 无实物硬件,STC12C5A60S2单片机的Modbus通讯编程及无实物硬件的FX1N程序转换

扑克牌识别数据集，可识别数字和花色，501张原始图，正确识别率可达99.3%， yolo v7格式标注: 扑克牌识别数据集，可识别数字和花色，501张原始图，正确识别率可达99.3%， yolo v7格式标注

2024年北京地区税务经理职位薪酬调查报告: 人力资源+大数据+薪酬报告+涨薪调薪，在学习、工作生活中，越来越多的事务都会使用到报告，通常情况下，报告的内容含量大、篇幅较长。那么什么样的薪酬报告才是有效的呢？以下是小编精心整理的调薪申请报告，欢迎大家分享。相信老板看到这样的报告，一定会考虑涨薪的哦。

毕业设计基于Python的Django-html基于深度学习的音乐推荐方法研究系统源码（完整前后端+mysql+说明文档+LW+PPT）.zip: 本次的研究是基于使用自动编码器，通过与卷积神经网络相结合，以挖掘音频、歌词本身的非线性特征，来实现很好的音乐推荐、音乐查找识别的功能实现，并将内容特征与协同过滤共同作用，训练紧耦合模型。通过此次的系统搭建与开发，能够通过深度学习的方式让系统可以实现按照用于的喜好来进行音乐的推荐的功能实现。关键词：深度学习；音乐推荐；Python；KNNBaseline

电-气综合能源系统能量与备用调度分布鲁棒优化模型：融合Wasserstein模糊集与CVaR条件风险价值的策略优化,电-气综合能源系统基于Wasserstein距离与CVaR条件风险价值的能量-备用分: 电-气综合能源系统能量与备用调度分布鲁棒优化模型：融合Wasserstein模糊集与CVaR条件风险价值的策略优化,电-气综合能源系统基于Wasserstein距离与CVaR条件风险价值的能量-备用分布鲁棒优化调度策略,matlab代码：计及条件风险价值的电-气综合能源系统能量-备用分布鲁棒优化关键词：wasserstein距离 CVAR条件风险价值分布鲁棒优化电-气综合能源能量-备用调度参考文档《Energy and Reserve Dispatch with Distributionally Robust Joint Chance Constraints》主要内容：代码主要做的是电气综合能源系统的不确定性调度问题，首先，通过wasserstein距离构建不确定参数的模糊集，其次建立了电-气综合能源系统能量-备用市场联合优化调度模型，并在调度的过程中，考虑调度风险，利用条件风险价值CVaR评估风险价值,从而结合模糊集构建了完整的分布鲁棒模型，通过分布鲁棒模型对不确定性进行处理，显著降低鲁棒优化结果的保守性，更加符合实际 ,核心关键词：Wasserstein距离；CVAR

【毕业设计】Python的Django-html图像取证技术研究与实现系统源码（完整前后端+mysql+说明文档+LW+PPT）.zip: 【毕业设计】Python的Django-html图像取证技术研究与实现系统源码（完整前后端+mysql+说明文档+LW+PPT）.zip

基于28035芯片的同步机无传感滑膜观测器模型与代码：典型smo+pll方案，高可比实际应用，含Simulink模型及中文注释注意事项,基于芯片设计技术的同步机无传感器滑膜观测器模型与代码实现（采用s: 基于28035芯片的同步机无传感滑膜观测器模型与代码：典型smo+pll方案，高可比实际应用，含Simulink模型及中文注释注意事项,基于芯片设计技术的同步机无传感器滑膜观测器模型与代码实现（采用smo+pll方案）,一个同步机无传感滑膜观测器模型加代码，该模型基于28035芯片，采用了典型的smo+pll方案。这段代码是实际应用代码，而不是一般的玩票代码，因此具有较高的可比性（不同于ti例程）。需要注意的是，少数文件中的中文注释可能存在乱码问题。至于m文件，它并没有太多用处，直接运行simulink模型即可。 ,核心关键词： 1. 同步机无传感滑膜观测器模型； 2. 28035芯片； 3. smo+pll方案； 4. 实际应用代码； 5. 少数中文注释乱码； 6. m文件不必要； 7. simulink模型。,基于28035芯片的同步机无传感滑膜观测器模型及实用代码

【毕业设计】Python-Django-html图像信息隐藏技术设计源码（完整前后端+mysql+说明文档+LW+PPT）.zip: 【毕业设计】Python-Django-html图像信息隐藏技术设计源码（完整前后端+mysql+说明文档+LW+PPT）.zip

基于STM32电子秤毕业设计: 基于STM32电子秤毕业设计

【毕业设计】python-Django-html时间序列分析大气污染预测系统源码（完整前后端+mysql+说明文档+LW+PPT）.zip: 【毕业设计】python-Django-html时间序列分析大气污染预测系统源码（完整前后端+mysql+说明文档+LW+PPT）.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论