存储在数据库中的数据是结构化数据,因为它是以严格的格式表示的。例如,在关系数据库表中的每条记录,例如《数据库系统基础:初级篇》中图5.6的EMPLOYEE表,该表中的所有记录都遵循同一格式。对于结构化数据,为了创建数据库模式,一般都应用如《数据库系统基础:初级篇》中第3、第4、第7、第10和第11章中所描述的那些技术来详细设计数据库。然后DBMS将进行检查以确保所有数据遵循模式中所指定的结构和约束。
但是,并不是所有的数据都能被汇集并都能插入到设计好的结构化数据库中。在某些应用中,在知道数据将被如何存储和管理之前,就已经以特定的模式汇集。这些数据可能有特定的结构,但不是所有汇集来的信息都有同样的结构。可能某些属性会被多个实体所共享,但另一些属性可能仅存在于少量实体中。此外,在一些较新的数据项中随时可能会被引入附加属性,而且没有预先设计好的模式。这种类型的数据称为半结构化数据。为了表示半结构化数据,已经引入了大量的数据模型,这些模型一般都是基于树或图数据结构,而不是基于平面关系模型结构。
结构化数据和半结构化数据的关键区别在于模式结构(例如属性、联系和实体类型的名称)是如何被处理的。在半结构化数据中,模式信息与数据值混合在一起,因为每个数据对象可能有不同的、预先无法知道的多个属性。于是,这种类型的数据有时被称为自描述数据。考虑下面这个示例。我们想要汇集一份关于某研究项目的参考文献的清单。这些文献有些可能是书或技术报告,有些可能是期刊或会议论文集中的研究文章,有些甚至可能是整份期刊或会议论文集。显而易见,它们中的每一种都可能有不同的属性和不同的信息类型。就算是对于同类型的参考文献,例如会议论文,我们也有可能得到不同的信息。例如,一篇文章的引证或许非常完整,有着关于作者姓名、题目、论文集、页码等的完整信息,而其他文章的引证或许没有这样完整的信息。未来或许会出现新类型的参考文献来源,比如说网页或会议手册,而这些新类型的参考文献来源可能会有新的属性来描述它们。
半结构化数据可以用有向图来表示,如图10-1所示。图10-1中显示的信息与《数据库系统基础:初级篇》的图5-6中显示的结构化数据是对应的。我们可以看到,这种模型在表示复杂对象和嵌套结构的能力方面与对象模型(见图4-1)是类似的。图10-1中,用带箭头直线上的标号或标签表示模式名:属性名、对象类型(或实体类型或类)以及联系。内部结点表示单个对象或组合属性。叶结点表示简单(原子)属性的实际数值。
分享到:
相关推荐
### 199-非结构化数据管理解决方案白皮书(2020版) #### 一、前言 在当今数字化时代,数据已经成为企业和组织的核心资产之一。随着信息技术的发展和应用领域的不断扩大,非结构化数据的数量正在以前所未有的速度...
非结构化数据治理方案主要关注的是那些不具备固定模式、难以用传统数据库管理的大量信息,如电子文档、图片、音频和视频等。随着互联网技术的发展,非结构化数据在各个行业的业务运营中变得越来越关键。例如,银行...
索引创建的过程是将现实世界中的所有结构化和非结构化数据提取信息,并创建索引。搜索索引的过程则是获取用户查询请求,搜索创建的索引,并返回结果。全文检索存在的三个重要问题是:索引中究竟存些什么、如何创建...
非结构化数据管理解决方案白皮书详细阐述了非结构化数据的定义、特征、管理发展历程,以及管理体系和解决方案的具体内容。本文将分别就白皮书中的关键知识点进行详细解说。 ### 1. 非结构化数据的定义及特征 非...
### 非结构化数据管理:Oracle数据库11g的新突破 #### 引言 随着信息技术的迅猛发展,数据管理成为企业和组织面临的关键挑战之一。其中,非结构化数据因其复杂性和多样性,成为了数据管理领域的一大难题。Oracle...
这些核心技术包括底层架构、服务、安全,以及与人工智能技术的深度整合等,它们共同构成了非结构化数据管理解决方案的核心。 报告详细介绍了非结构化数据管理的应用实践,涉及内容协作与交互、内容全生命周期管理、...
非结构化数据中台的建设指南是指企业如何构建非结构化数据中台,实现数据的整合、治理、洞察和安全,帮助企业构建数据能力,释放非结构化数据的价值,助力数据驱动型组织。 非结构化数据中台的应用场景包括金融、...
非结构化数据平台的架构设计主要包括内容采集、内容管理、知识管理以及内容安全等几个关键部分。 ##### 2.1 内容采集 - **数据源接入**:支持多种类型的数据源接入,如办公软件产生的文档、邮件附件、扫描件等。 -...
### 非结构化数据平台建设方案解析 #### 一、非结构化数据平台建设目标 在当前数字化转型的大背景下,非结构化数据已经成为大型集团企业管理的重要组成部分。本方案旨在建立一个全面覆盖集团内部非结构化数据的...
非结构化数据管理是当前信息技术领域的一个重要主题,因为非结构化数据的快速增长以及其中蕴含的巨大价值。非结构化数据包括各种格式的信息,如文本、图像、音频、视频等,这些数据没有预定义的模式,使得管理和提取...
然而,非结构化数据的管理面临着挑战,包括其海量、多样的特性以及异构存储问题。传统的管理方式往往无法有效应对这些挑战,因此需要更先进的技术和解决方案,如知识图谱、深度学习等技术,来解析和分析非结构化数据...
NLP技术在银行领域的应用至关重要,因为它能让银行从非结构化数据中提取有价值的信息,提供更准确的风险评估、更好的客户服务以及更高效的运营决策。例如,通过NLP分析客户的沟通文本,银行能够掌握客户的偏好,从而...
它可以帮助组织和个人通过信息技术手段实现非结构化内容的创建、存储、分享、应用和检索等功能,进而为企业和个人、组织、业务以及战略等多个层面创造价值。 ### 非结构化数据的特点 非结构化数据主要包括但不限于...
日志服务是针对日志分析领域的一款强大工具,它的核心功能在于将各种非结构化的日志数据转化为结构化数据,以便进行实时处理、数据仓库计算以及数据分析。日志服务具备全托管、实时、高吞吐的特性,降低了数据分析的...
### 非结构化数据平台建设方案解析 #### 一、非结构化数据平台建设目标 在当前数字化转型的大背景下,非结构化数据已经成为企业信息化过程中不可或缺的一部分。针对大型集团公司的特点,本方案旨在实现对电子单据...
非结构化数据的“完整性”是数据质量管理中的一个重要方面,它涉及到数据资产目录的编制和管理、现状评估、数据应用、数据标准、数据融通、元数据管理、数据共享、数据质量、数据开放、数据安全和数据收集等多个方面...
应用该包,可以实现非结构化数据的查询,将结构化数据load内存