`
anna_zr
  • 浏览: 200588 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

结构化、半结构化以及非结构化数据

阅读更多
存储在数据库中的数据是结构化数据,因为它是以严格的格式表示的。例如,在关系数据库表中的每条记录,例如《数据库系统基础:初级篇》中图5.6的EMPLOYEE表,该表中的所有记录都遵循同一格式。对于结构化数据,为了创建数据库模式,一般都应用如《数据库系统基础:初级篇》中第3、第4、第7、第10和第11章中所描述的那些技术来详细设计数据库。然后DBMS将进行检查以确保所有数据遵循模式中所指定的结构和约束。

但是,并不是所有的数据都能被汇集并都能插入到设计好的结构化数据库中。在某些应用中,在知道数据将被如何存储和管理之前,就已经以特定的模式汇集。这些数据可能有特定的结构,但不是所有汇集来的信息都有同样的结构。可能某些属性会被多个实体所共享,但另一些属性可能仅存在于少量实体中。此外,在一些较新的数据项中随时可能会被引入附加属性,而且没有预先设计好的模式。这种类型的数据称为半结构化数据。为了表示半结构化数据,已经引入了大量的数据模型,这些模型一般都是基于树或图数据结构,而不是基于平面关系模型结构。

结构化数据和半结构化数据的关键区别在于模式结构(例如属性、联系和实体类型的名称)是如何被处理的。在半结构化数据中,模式信息与数据值混合在一起,因为每个数据对象可能有不同的、预先无法知道的多个属性。于是,这种类型的数据有时被称为自描述数据。考虑下面这个示例。我们想要汇集一份关于某研究项目的参考文献的清单。这些文献有些可能是书或技术报告,有些可能是期刊或会议论文集中的研究文章,有些甚至可能是整份期刊或会议论文集。显而易见,它们中的每一种都可能有不同的属性和不同的信息类型。就算是对于同类型的参考文献,例如会议论文,我们也有可能得到不同的信息。例如,一篇文章的引证或许非常完整,有着关于作者姓名、题目、论文集、页码等的完整信息,而其他文章的引证或许没有这样完整的信息。未来或许会出现新类型的参考文献来源,比如说网页或会议手册,而这些新类型的参考文献来源可能会有新的属性来描述它们。

半结构化数据可以用有向图来表示,如图10-1所示。图10-1中显示的信息与《数据库系统基础:初级篇》的图5-6中显示的结构化数据是对应的。我们可以看到,这种模型在表示复杂对象和嵌套结构的能力方面与对象模型(见图4-1)是类似的。图10-1中,用带箭头直线上的标号或标签表示模式名:属性名、对象类型(或实体类型或类)以及联系。内部结点表示单个对象或组合属性。叶结点表示简单(原子)属性的实际数值。

分享到:
评论

相关推荐

    非结构化数据的存储

    NoSQL数据库(如MongoDB、Cassandra)则提供了一种灵活的数据模型,可以存储半结构化或非结构化数据,适用于处理大规模、高性能的数据场景。 将非结构化数据存入SQL数据库是一个相对不寻常的做法,因为SQL数据库的...

    结构化数据和非结构化数据检索

    索引创建的过程是将现实世界中的所有结构化和非结构化数据提取信息,并创建索引。搜索索引的过程则是获取用户查询请求,搜索创建的索引,并返回结果。全文检索存在的三个重要问题是:索引中究竟存些什么、如何创建...

    非结构化实验室-非结构化数据管理解决方案白皮书(2020 版)-2020.9-57页精品报告2020.pdf

    非结构化数据管理解决方案白皮书详细阐述了非结构化数据的定义、特征、管理发展历程,以及管理体系和解决方案的具体内容。本文将分别就白皮书中的关键知识点进行详细解说。 ### 1. 非结构化数据的定义及特征 非...

    199-非结构化数据管理解决方案白皮书 (2020版)——非结构化数据管理解决方案联合实验室.pdf

    ### 199-非结构化数据管理解决方案白皮书(2020版) #### 一、前言 在当今数字化时代,数据已经成为企业和组织的核心资产之一。随着信息技术的发展和应用领域的不断扩大,非结构化数据的数量正在以前所未有的速度...

    Informatica PowerCenter 非结构化数据选项

    Informatica PowerCenter的非结构化数据选项是该数据集成平台的一个扩展功能,它将对非结构化数据的处理能力提升到了一个新的高度。在信息化、大数据时代,非结构化数据在企业存储的信息中占据了很大的比重。据估计...

    半结构化数据频繁模式挖掘相关技术研究

    半结构化数据是介于完全结构化数据和非结构化数据之间的一种数据类型,它们通常以标签和属性的形式存在,但没有严格定义的模式。随着互联网和大数据的快速发展,半结构化数据日益增多,典型代表如XML文档、JSON对象...

    电力系统非结构化数据处理方法研究.pdf

    首先,研究从非结构化数据的背景和电力系统非结构化数据的特点入手,对电力系统中非结构化数据进行分类和定义。非结构化数据是相对于结构化数据而言,主要来源于各种非电子化的文件,如设计图纸、合同、报告、说明书...

    【非结构化数据平台】大型集团企业非结构化数据平台建设方案WORD.docx

    ### 非结构化数据平台建设方案 #### 一、非结构化数据平台建设背景 在当前数字化转型的大背景下,大型集团企业面临着前所未有的机遇与挑战。为了在竞争激烈的市场环境中保持领先地位,企业必须充分利用非结构化...

    Oracle多媒体及非结构化数据管理教程

    ### Oracle多媒体及非结构化数据管理教程 #### 知识点概述 《Oracle多媒体及非结构化数据管理教程》是一本全面介绍了如何在Oracle数据库环境中管理和处理多媒体与非结构化数据的专业书籍。随着信息技术的发展,...

    处理非结构化数据,采用神经网络来预测市场趋势.zip

    处理非结构化数据时,我们需要进行数据清洗、提取有用信息,将其转化为结构化或半结构化形式。例如,对于文本数据,我们可能需要进行分词、去除停用词、词干提取等预处理步骤。 二、数据预处理 在机器学习项目中,...

    某电力公司非结构化数据管理系统设计.pptx

    它可以帮助组织和个人通过信息技术手段实现非结构化内容的创建、存储、分享、应用和检索等功能,进而为企业和个人、组织、业务以及战略等多个层面创造价值。 ### 非结构化数据的特点 非结构化数据主要包括但不限于...

    日志服务数据加工培训第五讲_非结构化数据解析实践.pdf

    日志服务是针对日志分析领域的一款强大工具,它的核心功能在于将各种非结构化的日志数据转化为结构化数据,以便进行实时处理、数据仓库计算以及数据分析。日志服务具备全托管、实时、高吞吐的特性,降低了数据分析的...

    DAMA介绍-非结构化数据质量管理-汪广盛.pdf

    非结构化数据的“完整性”是数据质量管理中的一个重要方面,它涉及到数据资产目录的编制和管理、现状评估、数据应用、数据标准、数据融通、元数据管理、数据共享、数据质量、数据开放、数据安全和数据收集等多个方面...

    非结构化数据爬取.doc

    爬虫技术与非结构化数据爬取 在网络爬虫领域中,非结构化数据爬取是指从网页或其他网络资源中,提取有价值的信息并将其存储在本地的过程。这种技术广泛应用于数据分析、机器学习、自然语言处理等领域。本文将详细...

    非结构化查询

    应用该包,可以实现非结构化数据的查询,将结构化数据load内存

    海量非结构化数据技术在运营管理中的运用.ppt

    1、银行数据全生命周期管理探讨 2、海量非结构化数据特点及使用 3、海量非结构化数据技术要点与实现

    医疗非结构化知识图谱抽取数据集

    医疗非结构化知识图谱抽取数据集

    云计算下非结构化大数据存储系统设计.pdf

    云计算环境下处理的大数据包含结构化、半结构化和非结构化数据,其中非结构化数据量占比日益增加,这些数据来源广泛,包括文本、图片、视频、音频等。如何高效存储和管理这些非结构化大数据,成为云计算领域面临的一...

Global site tag (gtag.js) - Google Analytics