归档文件的再归档
1.
扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件;
2.
根据归档文件大小配置参数,将统计所得归档文件分组;
3.
统计各分组归档文件涉及到的对象;
4.
将每个分组中的归档文件合并到一个归档文件;将归档文件中的有效对象数据合并到一个新的归档文件中;
5.
更新相关对象元数据信息表中的数据位置描述项;
6.
删除旧的归档文件;
图
-8
归档文件的再归档
总结语
基于
Hadoop
实现类似
Amazon S3
的对象存储系统,有一定的先天优势,例如
Hadoop
的
HDFS
作为数据存储的容器,解决了数据冗余备份的问题;
Hadoop
的半结构化的存储系统
HBase
可以支撑
MetaData
的存储,同时解决了
MetaData
存储层的可靠性和可扩展性等问题。
HDFS
天生不能适合存储大量小文件的缺陷,可以使用
MapReduce
处理架构在后台提供对象归档管理功能(
Hadoop
已经有了
HAV
的功能,只是没有平台化),使得
HDFS
仍然存储自己喜欢的“大文件”。这种基于
Hadoop
实现的对象存储系统,并不能保证在现阶段达到和
Amazon S3
一样的服务效率,但随着
Hadoop
系统的不断完善(例如
HDFS
访问效率的提高,
Append
功能的支持等),相信也能有不俗的表现。
来自:http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx
分享到:
相关推荐
基于Hadoop的云盘系统是一种分布式存储解决方案,利用Hadoop的可扩展性和高容错性来处理大规模数据。Hadoop是Apache软件基金会的一个开源项目,主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成...
本资料主要探讨的是如何利用Hadoop构建一个分布式对象存储系统,这种系统能够高效、可靠地存储海量数据。 【描述】:“人工智能-Hadoop” Hadoop在人工智能领域的应用越来越广泛。AI项目往往需要处理大量数据,...
【基于Hadoop的Web云盘系统】是一种分布式存储和处理大量数据的解决方案,它结合了Hadoop的强大功能和Web服务的便捷性。该系统利用JavaWeb技术构建用户界面,为用户提供了一个在线存储、管理和访问文件的平台。核心...
本项目是基于Hadoop平台,采用Java编程语言,构建了一套完整的电影推荐系统,旨在实现大规模数据处理下的高效推荐服务。 首先,我们要理解Hadoop的核心组件——Hadoop Distributed File System (HDFS) 和 MapReduce...
《基于Hadoop和OpenStack构建数据平台:深度解析与实践》 在当今信息化时代,大数据已成为企业竞争力的关键因素。为了有效管理和利用海量数据,企业和研究机构纷纷转向分布式计算框架,如Hadoop和云计算平台...
这篇基于Hadoop的流量日志分析系统的学士学位毕业论文,深入探讨了Hadoop在大数据处理中的应用及其优势。 首先,Hadoop架构是论文的核心研究对象。Hadoop是由Apache基金会开发的一个开源项目,旨在提供一种分布式...
本文将详细介绍如何利用Spring框架来搭建一个基于Hadoop的大数据分析平台,涵盖了从基础概念到实践应用的关键知识点。 首先,理解Hadoop是至关重要的。Hadoop是Apache基金会的一个开源项目,主要设计用于处理和存储...
本项目以"基于SpringBoot+Hadoop+Vue开发的企业级网盘分布式系统"为实例,详细探讨了如何利用这些主流技术构建高效、安全、易用的网盘解决方案。以下是关于这些技术栈的深入解析: 一、SpringBoot SpringBoot是...
本项目名为“基于Hadoop的图像检索之人脸识别系统”,它将Hadoop与人脸识别技术相结合,构建了一个能够处理大量图像数据的人脸识别系统。 1. Hadoop基础知识: Hadoop是Apache基金会的一个开源项目,核心组件包括...
### 知识点二:Hadoop平台的技术特点 Hadoop作为一种开源的编程框架,主要使用Java语言,支持海量数据集的分布式处理,它主要包括HDFS(Hadoop分布式文件系统)和MapReduce(并行计算框架)两大组件。HDFS负责数据...
【基于Hadoop、HBase和SpringBoot实现分布式网盘系统】 在现代信息技术领域,随着大数据的不断增长,处理和存储海量数据的需求日益增加。在这个背景下,一个基于Hadoop、HBase和SpringBoot的分布式网盘系统应运而生...
2. Hive:Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得非Java背景的用户也能方便地对Hadoop上的数据进行操作。在本项目中,Hive可能是用于对Hadoop中存储的...
- Hadoop分布式文件系统(HDFS):一个分布式文件存储系统,它存储数据跨越多台机器。 7. Hadoop的实际应用 Hadoop在处理网络级别的大数据方面具有显著优势。它不仅可以在成千上万台机器上运行,而且对开发人员和...
### 基于Hadoop的海量视频的分布式存储与检索研究 #### 一、研究背景与意义 随着互联网技术的快速发展,视频数据已经成为人们获取信息的重要途径之一。无论是社交网络中的短视频分享,还是在线教育、远程会议等...
### 基于Hadoop和Django的大数据可视化分析Web系统 #### 一、系统概述与价值 在当今数字化时代,大数据技术已经成为推动企业发展的重要力量。对于企业和组织而言,能够有效地收集、处理并分析海量数据变得至关重要...
这是一个基于Java技术栈,利用SpringMVC、Spring、HBase和Maven构建的Hadoop分布式云盘系统的项目。该项目旨在实现一个高效的、可扩展的云存储解决方案,利用Hadoop的分布式特性来处理大规模数据存储需求。 首先,...
【标题】基于Hadoop的疾病信息统计平台是一个利用Java编程语言构建的大数据处理系统,它旨在高效地收集、存储、处理和分析大量的疾病相关数据。Hadoop是Apache软件基金会开发的一个开源框架,专为分布式存储和计算大...
本项目“基于Hadoop结合Spring全家桶,采用HDFS文件系统存储的以JPA完成持久层的项目”正是这样一个将大数据处理与企业级应用开发紧密结合的实例。下面将详细阐述该项目中的关键知识点。 首先,Hadoop是一个开源的...
### 基于Hadoop平台的DBSCAN算法应用研究 #### 一、研究背景与意义 随着信息技术的飞速发展,大数据时代悄然而至。在这个时代背景下,数据量的爆炸式增长给传统的数据处理方式带来了前所未有的挑战。面对庞大的...
基于Hadoop的分布式数据库测试方法研究主要关注在电力系统海量数据存储采集的背景下,构建基于Hadoop生态圈框架的通用测试方法,以对分布式数据库的性能进行分析和检测。随着数据量的激增,传统的集中式数据库已无法...