数据库设计范式
转载自:http://blog.csdn.net/nerv3x3/archive/2009/06/10/4258762.aspx
设计范式(范式,数据库设计范式,数据库的设计范式)是符合某一种级别的关系模式的集合。
构造数据库必须遵循一定的规则。在关系数据库中,这种规则就是范式。
关系数据库中的关系必须满足一定的要求,即满足不同的范式。目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、第四范式(4NF)、第五范式(5NF)和第六范式(6NF)。满足最低要求的范式是第一范式(1NF)。
在第一范式的基础上进一步满足更多要求的称为第二范式(2NF),其余范式以次类推。一般说来,数据库只需满足第三范式(3NF)就行了。
在创建一个数据库的过程中,范化是将其转化为一些表的过程,这种方法可以使从数据库得到的结果更加明确。这样可能使数据库产生重复数据,从而导致创建多余的表。范化是在识别数据库中的数据元素、关系,以及定义所需的表和各表中的项目这些初始工作之后的一个细化的过程。
(物品名称,购买顾客,物品价格)
如果上面这个表用于保存物品的价格,而你想要删除其中的一个顾客,这时你就必须同时删除一个价格。范化就是要解决这个问题,你可以将这个表化为两个表,一个用于存储每个顾客和他所买物品的信息,另一个用于存储每件产品和其价格的信息,这样对其中一个表做添加或删除操作就不会影响另一个表
。
1 第一范式(1NF)
在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。
所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。
例:以下两种不满足1NF
① 学号 姓名 所选课程1 所选课程详情1 所选课程2 所选课程详情2
② 部门编号部门名称 员工信息
员工号 员工姓名 员工性别
如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。
在第一范式(1NF)中表的每一行只包含一个实例的信息。
例子中的员工信息,不能将员工信息都放在一列中显示,也不能将其中的两列或多列在一列中显示;需要单建一个员工信息表,且每一行只表示一个员工的信息,一个员工的信息在表中只出现一次。
简而言之,第一范式就是无重复(不可分割)的列。
2 第二范式(2NF)
第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。
第二范式(2NF)要求数据库表中的每个实例或行必须可以被惟一地区分。
为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。如图员工信息表中会加上员工编号(id)列,因为每个员工的员工编号是惟一的,因此每个员工可以被惟一区分。这个惟一属性列被称为主关键字或主键、主码。
第二范式(2NF)要求实体的属性完全依赖于主关键字。
所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。
例:以下关系不符合2NF
选课关系表SelectCourse(学号, 姓名, 年龄, 课程名称, 成绩, 学分),
关键字为组合关键字(学号, 课程名称),因为存在如下决定关系:
(学号, 课程名称) → (姓名, 年龄, 成绩, 学分)
这个数据库表不满足第二范式,因为存在如下决定关系:
(课程名称) → (学分) (部分依赖)
(学号) → (姓名, 年龄) (部分依赖)
由于不符合2NF,这个选课关系表会存在如下问题:
(1) 数据冗余:
同一门课程由n个学生选修,"学分"就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次。
(2) 更新异常:
若调整了某门课程的学分,数据表中所有行的"学分"值都要更新,否则会出现同一门课程学分不同的情况。
(3) 插入异常:
假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有"学号"关键字,课程名称和学分也无法记录入数据库。
(4) 删除异常:
假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。很显然,这也会导致插入异常。
把选课关系表SelectCourse改为如下三个表:
学生:Student(学号, 姓名, 年龄);
课程:Course(课程名称, 学分);
选课关系:SelectCourse(学号, 课程名称, 成绩)。
非主属性只依赖关键字中的部分主属性,对其进行数据操作时,有可能使得关键字中未被依赖的那部分主属性极其相关信息丢失或出现错误,从而导致更新、插入、删除异常等。
符合第二范式的数据库表,消除了数据冗余、更新异常、插入异常和删除异常。
数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖,也即所有非关键字段都完全依赖于任意一组候选关键字。
简而言之,第二范式就是非主属性非部分依赖于主关键字。
另外,所有单关键字的数据库表都符合第二范式,因为不可能存在组合关键字。
3 第三范式(3NF)
满足第三范式(3NF)必须先满足第二范式(2NF)。
第三范式(3NF)要求一个数据库表中不包含已在其它表中已包含的非主关键字信息。
例如,存在一个部门信息表,其中每个部门有部门编号(dept_id)、部门名称、部门简介等信息。那么在员工信息表中列出部门编号后就不能再将部
门名称、部门简介等与部门有关的信息再加入员工信息表中。如果不存在部门信息表,则根据第三范式(3NF)也应该构建它,否则就会有大量的数据冗余。
第三范式就是属性不依赖于其它非主属性。
例:
学生关系表Student(学号, 姓名, 年龄, 所在学院, 学院地点, 学院电话)
关键字为单一关键字"学号"
(学号) → (姓名, 年龄, 所在学院, 学院地点, 学院电话)
这个数据库是符合2NF的,但是不符合3NF,因为存在如下决定关系:
(学号) → (所在学院) → (学院地点, 学院电话)
(学院地点,学院电话)不能直接由学生学号决定,而是由学院名称决定的。
而学院名称依赖于学号,因此出现了非主属性对关键字(学号)的依赖传递,不符合3NF。
数据表中如果不存在非关键字段对任一候选关键字段的传递函数依赖则符合第三范式。所谓传递函数依赖,指的是如果存在"A → B → C"的决定关系,则C传递函数依赖于A。因此,满足第三范式的数据库表应该不存在如下依赖关系:
关键字段 → 非关键字段x → 非关键字段y
简而言之,第三范式不存在非主属性对关键字的传递依赖。
4、BCNF
在第三范式的基础上。
3NF规定的是非主属性
对关键字的传递依赖,而BCNF进一步规定任一属性
(包括主属性和非主属性)对关键字都不存在传递依赖,且不存在主属性对关键字的部分依赖(2NF规定为非主属性对关键字的部分依赖)。
例:仓库管理关系表StorehouseManage(仓库ID, 存储物品ID, 管理员ID, 数量)
且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品,因此关键字为(仓库ID, 存储物品ID)和(管理员ID, 存储物品ID)。
(仓库ID, 存储物品ID) →(管理员ID, 数量)
(管理员ID, 存储物品ID) → (仓库ID, 数量)
非主属性“数量”,完全且直接依赖于两个后选码,因此符合2NF和3NF。
但是,由于存在如下决定关系,所以其不符合BCNF范式:
(仓库ID) → (管理员ID)
(管理员ID) → (仓库ID)
如果关系模式R(U,F)的所有属性(包括主属性和非主属性)都不传递依赖于R的任何候选关键字,那么称关系R是属于BCNF的。或是关系模式R,如果每个决定因素都包含关键字(而不是被关键字所包含),则为BCNF的关系模式。
把仓库管理关系表分解为二个关系表:
仓库管理:StorehouseManage(仓库ID, 管理员ID);
仓库:Storehouse(仓库ID, 存储物品ID, 数量)。
这样的数据库表是符合BCNF范式的,消除了删除异常、插入异常和更新异常。
如果关系模式R∈1NF,且所有的函数依赖X->Y(Y X),决定因素X都包含了R的一个候选码,则称R属于BC范式,记做R ∈BCNF。
一个满足BCNF范式的关系模式有:
所有非主属性对每一个码都是完全函数依赖。
所有的主属性对每一个不包含它的码,也是完全函数依赖
没有任何属性完全函数依赖于非码的任一组属性。
如果R ∈BCNF,则R ∈3NF。
BCNF排除了任何属性
对码的传递与部分依赖。
简而言之,如果每个决定因素都包含关键字(而不是被关键字所包含),则为BCNF的关系模式。
(仓库ID, 存储物品ID) →(管理员ID, 数量) 决定因素(仓库ID, 存储物品ID),为关键字(包含关键字);
仓库ID->管理员ID,决定因素仓库ID,为主属性,非关键字,被关键字(仓库ID, 存储物品ID)所包含。
----------------------------------------------------------
1NF:每个属性不可重复不可再分
2NF:消除非主属性对关键字的部分依赖
3NF:消除非主属性对关键字的传递依赖
BCNF:在2NF、3NF的基础上消除主属性对关键字的部分、依赖传递
----------------------------------------------------------
范式应用
论坛数据库,有如下信息:
(1) 用户:用户名,email,主页,电话,联系地址
(2) 帖子:发帖标题,发帖内容,回复标题,回复内容
第一次将数据库设计为仅仅存在表:
用户名 email 主页 电话联系地址发帖标题发帖内容回复标题回复内容
这个数据库表符合第一范式,但是没有任何一组候选关键字能决定数据库表的整行,唯一的关键字段用户名也不能完全决定整个元组。我们需要增加"发帖ID"、"回复ID"字段,即将表修改为:
用户名 email 主页 电话 联系地址 发帖ID 发帖标题 发帖内容 回复ID 回复标题 回复内容
这样数据表中的关键字(用户名,发帖ID,回复ID)能决定整行:
(用户名,发帖ID,回复ID) → (email,主页,电话,联系地址,发帖标题,发帖内容,回复标题,回复内容)
但是,这样的设计不符合第二范式,因为存在如下决定关系:
(用户名) → (email,主页,电话,联系地址)
(发帖ID) → (发帖标题,发帖内容)
(回复ID) → (回复标题,回复内容)
即非关键字段部分函数依赖于候选关键字段,很明显,这个设计会导致大量的数据冗余和操作异常。
将数据库表分解为(带下划线的为关键字):
(1) 用户信息:用户名,email,主页,电话,联系地址
(2) 帖子信息:发帖ID,标题,内容
(3) 回复信息:回复ID,标题,内容
(4) 发贴:用户名,发帖ID
(5) 回复:发帖ID,回复ID
这样的设计是满足第1、2、3范式和BCNF范式要求的,但是这样的设计是不是最好的呢?
不一定。
观察可知,第4项"发帖"中的"用户名"和"发帖ID"之间是1:N的关系,因此我们可以把"发帖"合并到第2项的"帖子信息"中;第5项"回复"
中的"发帖ID"和"回复ID"之间也是1:N的关系,因此我们可以把"回复"合并到第3项的"回复信息"中。这样可以一定量地减少数据冗余,新的设计
为:
(1) 用户信息:用户名,email,主页,电话,联系地址
(2) 帖子信息:用户名,发帖ID,标题,内容
(3) 回复信息:发帖ID,回复ID,标题,内容
数据库表1显然满足所有范式的要求;
数据库表2中存在非关键字段"标题"、"内容"对关键字段"发帖ID"的部分函数依赖,即不满足第二范式的要求,但是这一设计并不会导致数据冗余和操作异常;
数据库表3中也存在非关键字段"标题"、"内容"对关键字段"回复ID"的部分函数依赖,也不满足第二范式的要求,但是与数据库表2相似,这一设计也不会导致数据冗余和操作异常。
由此可以看出,并不一定要强行满足范式的要求,对于1:N关系,当1的一边合并到N的那边后,N的那边就不再满足第二范式了,但是这种设计反而比较好!
对于M:N的关系,不能将M一边或N一边合并到另一边去,这样会导致不符合范式要求,同时导致操作异常和数据冗余。
对于1:1的关系,我们可以将左边的1或者右边的1合并到另一边去,设计导致不符合范式要求,但是并不会导致操作异常和数据冗余。
结论
满足范式要求的数据库设计是结构清晰的,同时可避免数据冗余和操作异常。这并意味着不符合范式要求的设计一定是错误的,在数据库表中存在1:1或1:N关系这种较特殊的情况下,合并导致的不符合范式要求反而是合理的。
分享到:
相关推荐
"数据库设计范式的重要性" database设计范式是关系数据库的基础规范,关系数据库的设计必须遵循这些规范,否则将会导致数据库设计混乱、数据冗余、查询效率低下等问题。本文将详细介绍数据库设计范式的概念、类型和...
Oracle数据库设计范式是数据库设计中的核心概念,它关乎数据的组织方式,旨在减少数据冗余,提高数据的一致性和可维护性。PowerDesigner则是一款强大的数据库建模工具,可以帮助我们实现这些设计范式,从而优化...
目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、第四范式(4NF)、第五范式(5NF)和第六范式(6NF)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多...
关系数据库设计范式是数据库设计中的核心概念,用于确保数据的规范化和高效存储。以下是关于关系数据库设计范式的详细介绍: 1. 第一范式(1NF):这是最基本的要求,规定数据库表中的每一列(属性)都必须是不可再...
关系型数据库设计范式是数据库设计的核心原则,用于确保数据的一致性、减少冗余和避免数据异常。在设计数据库时,遵循这些范式能够提高数据的组织效率和查询性能,降低维护成本。以下是四种主要的范式以及它们的解释...
### 数据库设计范式详解 #### 一、引言 在关系数据库的设计过程中,遵循一定的设计规范至关重要。这些规范能够确保数据库的结构合理、数据冗余最小化,并且避免数据异常的发生。其中最重要的规范之一便是“数据库...