归档文件的再归档
1.
扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件;
2.
根据归档文件大小配置参数,将统计所得归档文件分组;
3.
统计各分组归档文件涉及到的对象;
4.
将每个分组中的归档文件合并到一个归档文件;将归档文件中的有效对象数据合并到一个新的归档文件中;
5.
更新相关对象元数据信息表中的数据位置描述项;
6.
删除旧的归档文件;
图
-8
归档文件的再归档
总结语
基于
Hadoop
实现类似
Amazon S3
的对象存储系统,有一定的先天优势,例如
Hadoop
的
HDFS
作为数据存储的容器,解决了数据冗余备份的问题;
Hadoop
的半结构化的存储系统
HBase
可以支撑
MetaData
的存储,同时解决了
MetaData
存储层的可靠性和可扩展性等问题。
HDFS
天生不能适合存储大量小文件的缺陷,可以使用
MapReduce
处理架构在后台提供对象归档管理功能(
Hadoop
已经有了
HAV
的功能,只是没有平台化),使得
HDFS
仍然存储自己喜欢的“大文件”。这种基于
Hadoop
实现的对象存储系统,并不能保证在现阶段达到和
Amazon S3
一样的服务效率,但随着
Hadoop
系统的不断完善(例如
HDFS
访问效率的提高,
Append
功能的支持等),相信也能有不俗的表现。
来自:http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx
分享到:
相关推荐
基于Hadoop的云盘系统是一种分布式存储解决方案,利用Hadoop的可扩展性和高容错性来处理大规模数据。Hadoop是Apache软件基金会的一个开源项目,主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成...
本资料主要探讨的是如何利用Hadoop构建一个分布式对象存储系统,这种系统能够高效、可靠地存储海量数据。 【描述】:“人工智能-Hadoop” Hadoop在人工智能领域的应用越来越广泛。AI项目往往需要处理大量数据,...
【基于Hadoop的Web云盘系统】是一种分布式存储和处理大量数据的解决方案,它结合了Hadoop的强大功能和Web服务的便捷性。该系统利用JavaWeb技术构建用户界面,为用户提供了一个在线存储、管理和访问文件的平台。核心...
本项目是基于Hadoop平台,采用Java编程语言,构建了一套完整的电影推荐系统,旨在实现大规模数据处理下的高效推荐服务。 首先,我们要理解Hadoop的核心组件——Hadoop Distributed File System (HDFS) 和 MapReduce...
在此背景下,"基于Hadoop的高校固定资产管理系统研究与实现"应运而生,它不仅能够有效提升高校固定资产管理的智能化、自动化水平,还能够为相关专业的教学和研究提供实践平台。 该项目的开发采用了Java作为主要编程...
《基于Hadoop和OpenStack构建数据平台:深度解析与实践》 在当今信息化时代,大数据已成为企业竞争力的关键因素。为了有效管理和利用海量数据,企业和研究机构纷纷转向分布式计算框架,如Hadoop和云计算平台...
在探讨Springboot基于Hadoop的物品租赁系统的设计与实现过程中,首先需要明确Hadoop生态系统的核心组件以及Springboot框架的基本特性。Hadoop是一个开源的分布式存储与计算框架,它能够处理大量数据,并且包含了许多...
这篇基于Hadoop的流量日志分析系统的学士学位毕业论文,深入探讨了Hadoop在大数据处理中的应用及其优势。 首先,Hadoop架构是论文的核心研究对象。Hadoop是由Apache基金会开发的一个开源项目,旨在提供一种分布式...
本文针对基于Java语言与Hadoop技术的用户信用评估系统进行研究,旨在构建一个高效、可靠的信用评估平台。 系统的研究背景与意义在于,随着互联网金融行业的快速发展,对信用评估的需求日益增长,传统的信用评估方法...
在数据库文档中,将详细描述数据库的结构、各表之间的关系、数据类型、索引策略以及触发器、存储过程等数据库对象的实现,从而为系统提供稳定、高效的数据库支撑。 系统的智能代码平台则侧重于代码管理、版本控制和...
本文将详细介绍如何利用Spring框架来搭建一个基于Hadoop的大数据分析平台,涵盖了从基础概念到实践应用的关键知识点。 首先,理解Hadoop是至关重要的。Hadoop是Apache基金会的一个开源项目,主要设计用于处理和存储...
本项目以"基于SpringBoot+Hadoop+Vue开发的企业级网盘分布式系统"为实例,详细探讨了如何利用这些主流技术构建高效、安全、易用的网盘解决方案。以下是关于这些技术栈的深入解析: 一、SpringBoot SpringBoot是...
本项目名为“基于Hadoop的图像检索之人脸识别系统”,它将Hadoop与人脸识别技术相结合,构建了一个能够处理大量图像数据的人脸识别系统。 1. Hadoop基础知识: Hadoop是Apache基金会的一个开源项目,核心组件包括...
基于JAVA的基于Hadoop的物品租赁系统,不仅展示了现代Web开发技术的综合应用,也体现了大数据技术在传统电商领域的新应用。该系统的成功开发和应用,对于推动物品租赁行业的发展具有重要的现实意义,同时也为其他...
本项目“基于Hadoop结合Spring全家桶,采用HDFS文件系统存储的以JPA完成持久层的项目”正是这样一个将大数据处理与企业级应用开发紧密结合的实例。下面将详细阐述该项目中的关键知识点。 首先,Hadoop是一个开源的...
### 知识点二:Hadoop平台的技术特点 Hadoop作为一种开源的编程框架,主要使用Java语言,支持海量数据集的分布式处理,它主要包括HDFS(Hadoop分布式文件系统)和MapReduce(并行计算框架)两大组件。HDFS负责数据...
【基于Hadoop、HBase和SpringBoot实现分布式网盘系统】 在现代信息技术领域,随着大数据的不断增长,处理和存储海量数据的需求日益增加。在这个背景下,一个基于Hadoop、HBase和SpringBoot的分布式网盘系统应运而生...
2. Hive:Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得非Java背景的用户也能方便地对Hadoop上的数据进行操作。在本项目中,Hive可能是用于对Hadoop中存储的...
HBase作为Hadoop的一个子项目,是一个可扩展的分布式存储系统,用于存储非关系型的大数据。HDFS(Hadoop Distributed File System)则是Hadoop的核心组件,提供了高吞吐量的数据访问,适合大规模数据集的应用程序。 ...
- Hadoop分布式文件系统(HDFS):一个分布式文件存储系统,它存储数据跨越多台机器。 7. Hadoop的实际应用 Hadoop在处理网络级别的大数据方面具有显著优势。它不仅可以在成千上万台机器上运行,而且对开发人员和...