`
bluky999
  • 浏览: 719385 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

层次性数据格式 HDF 与生物信息学和 BioHDF

阅读更多

层次性数据格式 HDF 与生物信息学和 BioHDF

 

HDF: http://www.hdfgroup.org

 

 

1 层次型数据格式 HDF, HDF4 与 HDF5

 

概述

 Hierarchical Data Format,可以存储不同类型的图像和数码数据的文件格式,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。大多数普通计算机都支持这种文件格式。

 

HDF
  HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心(NCSA)创建的,以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为:

 

  自述性:对于一个HDF文件里的每一个数据对象,有关于该数据的综合信息(元数据)。在没有任何外部信息的情况下,HDF允许应用程序解释HDF文件的结构和内容。

  通用性:许多数据类型都可以被嵌入在一个HDF文件里。例如,通过使用合适的HDF数据结构,符号、数字和图形数据可以同时存储在一个HDF文件里。

  灵活性:HDF允许用户把相关的数据对象组合在一起,放到一个分层结构中,向数据对象添加描述和标签。它还允许用户把科学数据放到多个HDF文件里。

  扩展性:HDF极易容纳将来新增加的数据模式,容易与其他标准格式兼容。

  跨平台性:HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。

 

 

 

HDF4 与 HDF5

 

新一代的HDF5是由NCSA于1998年发布。NCSA支持HDF4并还将继续支持几年(细节如下)。HDF5被设计为改善HDF4的一些局限性。HDF4的某些局限性有:

  单个文件不能存放多于20000个对象,单个文件大小也不能大于2G字节。

  数据模式的兼容性不够好,有过多的对象类型,数据类型太严格。

  库函数过时和过于复杂,不能有效地支持并行口的I/O,很难用于线程应用中。

  HDF5包含如下的改进:

  被设计为一种新的格式用来改进HDF4.x,特别是每个文件可以存储更大的文件和更多的对象。

  数据模式更简洁、更全面,它包含两个基本结构:多维数组记录结构,和分组结构。

  更简洁、更利于工程库和应用编程接口,支持并行I/O,线程和其他一些现代系统和应用要求。

  虽然HDF5比HDF4有明显的优势,但HDF4仍然是在科学界使用得最为广泛。许多应用软件都是基于HDF4库开发的,许多数据产品是按HDF4格式生成的。把这些应用和数据产品从HDF4转换为HDF5需要花费时间和费用。因此,NCSA仍然支持HDF4并还将持续几年。

 

 

 

 

2 HDF 与生物信息学,BioHDF

 

Projects: http://www.hdfgroup.org/projects/

 

 

 

  • BioHDF
    The BioHDF project is a collaborative effort to develop portable, scalable, next-generation sequencing (NGS) data storage technologies in HDF5.

BioHDF 写道
BioHDF包含三个部分:

1 The data model and file organization.
This determines which data will be stored, how it will be arranged in the data file and how it will be queried. Data will be stored as fundamental building blocks such as "sequences", "alignments" and "MS/MS spectra". Unlike most file formats, which are set in stone, BioHDF files will are self-describing, flexible and extensible as they are based on HDF5.

2 The C application programming interface (API) and library.
This is the library which will provide the basic means for manipulating the data stored in a BioHDF file. C is a useful language for the basic BioHDF API since it allows for easy interfacing with the HDF5 API, can be ported easily to many operating systems and can interoperate with most higher-level languages. Much bioinformatics work is done in higher-level languages, however, and we intend to make the BioHDF API easily wrappable for these languages using packages like SWIG and XS.

3 Command-line tools
Command-line tools are provided for data I/O and manipulation. Interoperability with existing bioinformatics tools will be provided by functions which allow for import and export of the data from/to existing bioinformatics file formats.
 

     

  • Bioinformatics
    HDF5 has many potential applications in the growing field of bioinformatics.

 

Bioinfomatics 写道
1 BioHDF
2 LD Analysis
3 HapMap Data
4 Genotyping
5 Early Perl Work
 

 

 

3 stackoverflow 上关于 HDF 的问答:  http://stackoverflow.com/questions/tagged/hdf5 

 

 

PS:

在2008年8月份的时候,因为研究Broad的IGV(http://www.broadinstitute.org/igv/)而了解到HDF格式,当时的Seminar(http://bioinformatics.genomics.org.cn/bio/seminar2008.html)上内容较多,也未细讲,一带而过了;而且估计关心的人也不多。

0
0
分享到:
评论
1 楼 bluky999 2012-02-10  
1 使用 HDF5的软件 http://www.hdfgroup.org/tools5desc.html 

2 TDF : http://kosc.kordi.re.kr/processingsoftware/terascan.kosc

TeraScan Data Format
TeraScan ingests (imports) data into its own TeraScan data format (TDF). TDF is an extremely versatile file format capable of assimilating a wide variety of data types, shapes, and sizes. For example, a single dataset could contain satellite image data, random in-situ data, and 3-D model data.

TDF is self-describing; both dataset definitions and data are typically stored together in the same file. A TDF dataset can reference variables from several files using links. Links allow rapid import of non-TDF data and support lightweight dataset subsets and assemblies.
TeraScan includes a C-language programming interface to TDF. This interface accesses TDF components as named objects, hiding all unnecessary details about physical data layout.
TDF is very similar to other self-describing dataset standards such as HDF and netCDF. TDF supports conversion to and from these and other formats.

相关推荐

    HDF5分层数据格式基础学习

    HDF 文件可以被用于不同的行业和领域,例如气象学、地质学、生物信息学等。HDF 的发展方向包括提高数据存储效率、提高数据共享能力和提高数据安全性等。 HDF 是一种非常重要的科学数据文件格式,具有自述性、通用性...

    查看hdf格式数据打开hdf文件,查看hdf数据信息。用idl语言编写,理解后可对hdf格式文件有深入理解。

    HDF(Hierarchical Data Format)是一种用于存储和组织大量科学数据的文件格式。它支持多维数组和其他复杂数据结构,并提供了元数据的功能,使得数据具有自描述性。本教程将通过IDL(Interactive Data Language)...

    HDF数据格式详解

    了解HDF数据格式的关键在于掌握其数据模型、I/O操作、数据组织方式以及如何利用HDF库(如HDF4库或HDF5库)在应用程序中读写HDF文件。通过阅读提供的PDF文档,你可以深入学习HDF4的详细规范、使用指南和参考手册,...

    MODIS遥感数据的HDF格式数据的IDL程序

    使用这个程序,用户可以便捷地探索和理解MODIS数据,无需深入了解HDF格式的复杂性。通过学习和使用这样的工具,科研人员和分析人员能更快地从海量遥感数据中提取有价值的信息,推动科学研究和应用的发展。

    HDF(分层数据格式)中文使用简介

    《HDF分层数据格式中文使用简介》 一、HDF概述 HDF,全称为Hierarchical Data Format,是一种专为存储和分发科学数据设计的自我描述、多对象的文件格式。它由美国国家超级计算应用中心(NCSA)开发,旨在满足科学家...

    HDF5 HDF4 NC 格式数据解析操作类

    NetCDF(Network Common Data Form)是一种自我描述、平台无关的数据格式,常用于气象、气候、海洋等科学领域。它支持多维数组和变量,以及丰富的元数据。NetCDF文件可以被多种编程语言读取,包括C++。在C++中,通常...

    利用MATLAB读取HDF格式数据的实用方法

    在实际应用中,例如气象学研究,NCEP(National Centers for Environmental Prediction)生成的大量气候和天气预报数据经常以HDF格式存储。利用MATLAB读取NCEP数据,不仅可以方便地进行数据分析,还可以结合MATLAB的...

    读取HDF格式数据的包

    HDF(Hierarchical Data Format)是一种用于存储和组织大量科学数据的文件格式,它支持多维数组和其他复杂数据结构。MODIS(Moderate Resolution Imaging Spectroradiometer)是NASA地球观测卫星上的传感器,用于...

    HDF实验数据及代码

    GDAL不仅限于HDF,还能处理多种栅格和矢量地理数据格式。对于HDF,gdal可以用于读取和写入地理坐标系统下的数据,进行重采样、投影转换等地理空间操作。 在压缩包中,我们可能找到了一些示例代码,这些代码可能展示...

    HDF Explorer

    - **科研领域**: 在天文学、气候研究、生物学等多个科学领域,研究人员常用HDF格式存储和交换数据,而HDF Explorer则成为他们查看和处理这些数据的得力助手。 - **遥感数据分析**: 地球观测卫星产生的大量数据通常...

    shapeNet数据集,包括hdf5、带法向量、不带法向量等三种格式数据集-网盘下载链接(永久有效)

    这个数据集的独特之处在于它的多样性和结构化,使得研究人员能够进行深入的几何和语义分析。 shapeNet数据集的核心组成部分是其丰富的3D模型库,涵盖了多个类别,包括家具、交通工具、电子设备等日常生活中的常见...

    HDFExplorer(MODIS数据查看神器),无需安装专业遥感软件,可以直接查看hdf格式的MODIS影像数据,方便快捷

    HDFExplorer是一款强大的工具,专为查看和处理HDF(Hierarchical Data Format)格式的数据而设计,特别是针对MODIS(Moderate Resolution Imaging Spectroradiometer)遥感卫星数据。MODIS是NASA地球观测系统卫星上...

    GDAL的HDF文件格式提取研究

    例如,可以通过遍历子数据集列表来读取每一个子数据集,并提取其属性信息和波段数据。 #### 六、总结 本文详细介绍了如何使用GDAL来提取HDF文件格式中的栅格数据,包括GDAL的配置过程以及读取HDF文件的具体步骤。...

    HDF.rar_HDF 读取_HDF4 IDL_hdf_idl 提取_读取hdf

    总的来说,通过掌握IDL与HDF4的接口,科研人员能够方便地访问和处理以HDF格式存储的卫星数据,这对于理解和分析地球观测数据至关重要。"HDF_SD_VARDIR.pro"程序提供了实现这一目标的具体实现,而"说明.txt"则可能...

    数据转存hdf5.zip_hdf5_hdf5 matlab_matlab hdf5_数据转存为HDF5格式代码_深度学习

    - **数据备份**:HDF5文件可以作为数据集的备份,保持数据完整性和一致性。 - **分布式计算**:多个计算节点可以从同一个HDF5文件中读取数据,简化分布式训练的复杂性。 - **跨平台共享**:由于HDF5的广泛支持,不同...

    HDFView HDF格式数据读取

    本软件适用于HDF4和HDF5文件的读取,可方便处理各类卫星数据

    读取HDF5格式数据

    此外,如果你需要在Python环境中操作HDF5文件,可以使用`h5py`库,它的用法与IDL的HDF5接口类似,但在Python中提供了更丰富的功能和便利性。对于其他编程语言,如MATLAB、C++、Java等,也有相应的HDF5库可供选择。 ...

Global site tag (gtag.js) - Google Analytics