`
newleague
  • 浏览: 1504406 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类

规范化-数据库设计原则

 
阅读更多

简介: 关系数据库设计的核心问题是关系模型的设计。本文将结合具体的实例,介绍数据库设计规范化的流程。

<!-- <p class="ibm-no-print"> <div id="dw-tag-this" class="ibm-no-print"></div> <div id="interestShow" class="ibm-no-print"></div> </p> -->

本文的标签:  建模, 规划

 

 

发布日期: 2006 年 5 月 31 日
级别: 初级
访问情况 15022 次浏览
建议: 0 (添加评论) <!-- Rating_Area_Begin --><!-- Ensure that div id is based on input id and ends with -widget -->

1 star2 stars3 stars4 stars5 stars 平均分 (共 35 个评分 )
<script type="text/javascript"></script><!-- Rating_Area_End -->

 

<!-- dW_Summary_Area_END --><!-- CONTENT_BODY -->
<!-- MAIN_COLUMN_BEGIN -->
<!-- Related_Searches_Area_And_Overlays_Begin --><!-- MAIN_COLUMN_CONTAINER_BEGIN -->
<!-- MAIN_COLUMN_CONTENT_BEGIN -->

摘要

IBM 为社区提供了 DB2 免费版本 DB2 Express-C,它提供了与 DB2 Express Edition 相同的核心数据特性,为构建和部署应用程序奠定了坚实的基础。

关系型数据库是当前广泛应用的数据库类型,关系数据库设计是对数据进行组织化和结构化的过程,核心问题是关系模型的设计。对于数据库规模较小的情况,我们可以比较轻松的处理数据库中的表结构。然而,随着项目规模的不断增长,相应的数据库也变得更加复杂,关系模型表结构更为庞杂,这时我们往往会发现我们写出来的SQL语句的是很笨拙并且效率低下的。更糟糕的是,由于表结构定义的不合理,会导致在更新数据时造成数据的不完整。因此,就有必要学习和掌握数据库的规范化流程,以指导我们更好的设计数据库的表结构,减少冗余的数据,借此可以提高数据库的存储效率,数据完整性和可扩展性。本文将结合具体的实例,介绍数据库规范化的流程。


序言

本文的目的就是通过详细的实例来阐述规范化的数据库设计原则。在DB2中,简洁、结构明晰的表结构对数据库的设计是相当重要的。规范化的表结构设计,在以后的数据维护中,不会发生插入(insert)、删除(delete)和更新(update)时的异常。反之,数据库表结构设计不合理,不仅会给数据库的使用和维护带来各种各样的问题,而且可能存储了大量不需要的冗余信息,浪费系统资源。

要设计规范化的数据库,就要求我们根据数据库设计范式――也就是数据库设计的规范原则来做。但是一些相关材料上提到的范式设计,往往是给出一大堆的公式,这给设计者的理解和运用造成了一定的困难。因此,本文将结合具体形象的例子,尽可能通俗化地描述三个范式,以及如何在实际工程中加以优化应用。


规范化

在设计和操作维护数据库时,关键的步骤就是要确保数据正确地分布到数据库的表中。使用正确的数据结构,不仅便于对数据库进行相应的存取操作,而且可以极大地简化应用程序的其他内容(查询、窗体、报表、代码等)。正确进行表设计的正式名称就是"数据库规范化"。后面我们将通过实例来说明具体的规范化的工程。关于什么是范式的定义,请参考附录文章 1.


数据冗余

数据应该尽可能少地冗余,这意味着重复数据应该减少到最少。比如说,一个部门雇员的电话不应该被存储在不同的表中, 因为这里的电话号码是雇员的一个属性。如果存在过多的冗余数据,这就意味着要占用了更多的物理空间,同时也对数据的维护和一致性检查带来了问题,当这个员工的电话号码变化时,冗余数据会导致对多个表的更新动作,如果有一个表不幸被忽略了,那么就可能导致数据的不一致性。


规范化实例

为了说明方便,我们在本文中将使用一个SAMPLE数据表,来一步一步分析规范化的过程。

首先,我们先来生成一个的最初始的表。


CREATE TABLE "SAMPLE" (
		  "PRJNUM" INTEGER NOT NULL, 
		  "PRJNAME" VARCHAR(200), 
		  "EMYNUM" INTEGER NOT NULL,
		  "EMYNAME" VARCHAR(200), 
		  "SALCATEGORY" CHAR(1), 
		  "SALPACKAGE" INTEGER)   
		 IN "USERSPACE1";

ALTER TABLE "SAMPLE" 
	ADD PRIMARY KEY
		("PRJNUM", "EMYNUM");

Insert into SAMPLE(PRJNUM, PRJNAME, EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE)
values(100001, 'TPMS', 200001, 'Johnson', 'A', 2000), (100001, 'TPMS', 200002,
'Christine', 'B', 3000), (100001, 'TPMS', 200003, 'Kevin', 'C', 4000), (100002,
'TCT', 200001, 'Johnson', 'A', 2000), (100002, 'TCT', 200004, 'Apple', 'B',
3000);


表1-1
 

考察表1-1,我们可以看到,这张表一共有六个字段,分析每个字段都有重复的值出现,也就是说,存在数据冗余问题。这将潜在地造成数据操作(比如删除、更新等操作)时的异常情况,因此,需要进行规范化。


第一范式

参照范式的定义,考察上表,我们发现,这张表已经满足了第一范式的要求。

1、因为这张表中字段都是单一属性的,不可再分;

2、而且每一行的记录都是没有重复的;

3、存在主属性,而且所有的属性都是依赖于主属性;

4、所有的主属性都已经定义

事实上在当前所有的关系数据库管理系统(DBMS)中,都已经在建表的时候强制满足第一范式。因此,这张SAMPLE表已经是一张满足第一范式要求的表。考察表1-1,我们首先要找出主键。可以看到,属性对<Project Number, Employee Number>是主键,其他所有的属性都依赖于该主键。


从一范式转化到二范式

根据第二范式的定义,转化为二范式就是消除部分依赖。

考察表1-1,我们可以发现,非主属性<Project Name>部分依赖于主键中的<Project Number>; 非主属性<Employee Name>,<Salary Category>和<Salary package>都部分依赖于主键中的<Employee Number>;

表1-1的形式,存在着以下潜在问题:

1. 数据冗余:每一个字段都有值重复;

2. 更新异常:比如<Project Name>字段的值,比如对值"TPMS"了修改,那么就要一次更新该字段的多个值;

3. 插入异常:如果新建了一个Project,名字为TPT, 但是还没有Employee加入,那么<Employee Number>将会空缺,而该字段是主键的一部分,因此将无法插入记录;

Insert into SAMPLE(PRJNUM, PRJNAME, EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE) values(100003, 'TPT', NULL, NULL, NULL, NULL)


 

4. 删除异常:如果一个员工 200003, Kevin 离职了,要将该员工的记录从表中删除,而此时相关的Salary信息 C 也将丢失, 因为再没有别的行纪录下 Salary C的信息。

Delete from sample where EMYNUM = 200003
Select distinct SALCATEGORY, SALPACKAGE from SAMPLE

因此,我们需要将存在部分依赖关系的主属性和非主属性从满足第一范式的表中分离出来,形成一张新的表,而新表和旧表之间是一对多的关系。由此,我们得到:


CREATE TABLE "PROJECT" (
		  "PRJNUM" INTEGER NOT NULL, 
		  "PRJNAME" VARCHAR(200))
		 IN "USERSPACE1";

ALTER TABLE "PROJECT" 
	ADD PRIMARY KEY
		("PRJNUM");

Insert into PROJECT(PRJNUM, PRJNAME) values(100001, 'TPMS'), (100002, 'TCT');


表1-2
 

表 1-3
CREATE TABLE "EMPLOYEE" (
		  "EMYNUM" INTEGER NOT NULL, 
		  "EMYNAME" VARCHAR(200), 
"SALCATEGORY" CHAR(1), 
"SALPACKAGE" INTEGER)
		 IN "USERSPACE1";

ALTER TABLE "EMPLOYEE" 
	ADD PRIMARY KEY
		("EMYNUM");

Insert into EMPLOYEE(EMYNUM, EMYNAME, SALCATEGORY, SALPACKAGE) values(200001,
'Johnson', 'A', 2000), (200002, 'Christine', 'B', 3000), (200003, 'Kevin', 'C',
4000), (200004, 'Apple', 'B', 3000);

Employee Number	Employee Name	Salary Category	Salary Package
200001	Johnson	A	2000
200002	Christine	B	3000
200003	Kevin	C	4000
200004	Apple	B	3000


CREATE TABLE "PRJ_EMY" (
		  "PRJNUM" INTEGER NOT NULL, 
		  "EMYNUM" INTEGER NOT NULL)
		 IN "USERSPACE1";

ALTER TABLE "PRJ_EMY" 
	ADD PRIMARY KEY
		("PRJNUM", "EMYNUM");

Insert into PRJ_EMY(PRJNUM, EMYNUM) values(100001, 200001), (100001, 200002),
(100001, 200003), (100002, 200001), (100002, 200004);

同时,我们把表1-1的主键,也就是表1-2和表1-3的各自的主键提取出来,单独形成一张表,来表明表1-2和表1-3之间的关联关系:


表 1-4
 

这时候我们仔细观察一下表1-2, 1-3, 1-4, 我们发现插入异常已经不存在了,当我们引入一个新的项目 TPT 的时候,我们只需要向表1-2 中插入一条数据就可以了, 当有新人加入项目 TPT 的时候,我们需要向表1-3, 1-4 中各插入一条数据就可以了。虽然我们解决了一个大问题,但是仔细观察我们还是发现有问题存在。


从二范式转化到三范式

考察表前面生成的三张表,我们发现,表1-3存在传递依赖关系,即:关键字段< Employee Number > --> 非关键字段< Salary Category > -->非关键字段< Salary Package >。而这是不满足三范式的规则的,存在以下的不足:

1、 数据冗余:<Salary Category>和<Salary Package>的值有重复;

2、 更新异常:有重复的冗余信息,修改时需要同时修改多条记录,否则会出现数据不一致的情况;

3、 删除异常:同样的,如果员工 200003 Kevin 离开了公司,会直接导致 Salary C 的信息的丢失。

Delete from EMPLOYEE where EMYNUM = 200003
Select distinct SALCATEGORY, SALPACKAGE from EMPLOYEE

因此,我们需要继续进行规范化的过程,把表1-3拆开,我们得到:


表 1-5
 


表 1-6
 

这时候如果 200003 Kevin 离开公司,我们只需要从表 1-5 中删除他就可以了, 存在于表1-6中的Salary C信息并不会丢失。但是我们要注意到除了表 1-5 中存在 Kevin 的信息之外, 表1-4中也存在 Kevin 的信息, 这很容易理解, 因为 Kevin 参与了项目 100001, TPMS, 所以当然也要从中删除。

至此,我们将表1-1经过规范化步骤,得到四张表,满足了三范式的约束要求,数据冗余、更新异常、插入异常和删除异常。

在三范式之上,还存在着更为严格约束的BC范式和四范式,但是这两种形式在商业应用中很少用到,在绝大多数情况下,三范式已经满足了数据库表规范化的要求,有效地解决了数据冗余和维护操作的异常问题。


结束语

在本文描述的过程中,我们通过结合实例的方法,通俗地演绎了数据表规范化的过程,并展示了在此过程中数据冗余、数据库操作异常等问题是如何得到解决的。

在具体的工程应用中,运用数据库规范化的方法来设计数据库表,将是具有现实意义的。

<!-- CMA ID: 125680 --><!-- Site ID: 10 --><!-- XSLT stylesheet used to transform this file: dw-document-html-6.0.xsl -->

参考资料

作者简介

陈博,目前为浙江大学计算机科学与技术学院研究生一年级在读,硕士研究方向为智能软件工程,导师为应晶教授。

蒋韬,目前是 IBM 上海软件开发中心工具开发组的软件工程师,主要负责基于 J2EE 构架的翻译工具的开发和整合。2004 年毕业于复旦大学计算机系, 在进入 IBM 之前一直从事构件,构架整合和工具开发方面的工作,在 J2EE, DB2, XML, Web Services, IRUP, XP 方面都有丰富的项目经验。

分享到:
评论

相关推荐

    IBM规范化-数据库设计原则.pdf

    ### 数据库设计原则——规范化详解 #### 一、引言 在关系数据库设计过程中,规范化是一种重要的设计方法,它能够帮助我们减少数据冗余、提高数据完整性并优化数据存储效率。随着项目的扩大,数据库设计变得越来越...

    规范化-数据库设计原则.pdf

    规范化-数据库设计原则 数据库设计的核心问题是关系模型的设计。关系数据库设计是对数据进行组织化和结构化的过程。核心问题是关系模型的设计。对于数据库规模较小的情况,我们可以比较轻松的处理数据库中的表结构...

    规范化-数据库设计原则(案例)

    【规范化数据库设计原则详解】 关系型数据库是现代信息系统的基础,其设计的核心在于关系模型的构建。随着项目规模的扩大,数据库的复杂性也随之增加,此时,数据库设计的规范化显得尤为重要。规范化是解决数据库中...

    数据库设计指南-数据库设计教程

    11. **数据库设计原则**:如KISS(保持简单和愚蠢)、YAGNI(你不会需要它)等,可以帮助避免过度设计。 12. **数据库设计工具**:例如MySQL Workbench、Oracle SQL Developer等,可以帮助我们更直观地进行数据库...

    软件工程概要设计文档------数据库设计说明书

    文档的编写目的主要是为了规范数据库设计过程,明确设计目标,使开发人员能够理解并遵循设计原则,确保数据库系统满足软件系统的功能需求和性能指标。 1.2 背景 背景部分介绍了项目的基本情况,如项目的目标、预期...

    数据库设计开发规范-阿里.pdf

    《数据库设计开发规范-阿里.pdf》是一份由阿里巴巴云数据库服务部门编制的技术文档,旨在为数据库设计和开发提供一套全面且规范化的指导原则。该文档涵盖了Oracle和MySQL两大主流数据库系统的具体规范,并针对每种...

    赢在起点-数据库设计规范 梁敬彬大牛的经验之谈

    4. 规范化理论:数据库设计应遵循第一范式(1NF)、第二范式(2NF)、第三范式(3NF),以及更高的BCNF和4NF,以减少数据冗余和提高数据一致性。 5. 主键与外键:主键用于唯一标识表中每一行,应选择不为空且唯一的...

    数据库系统---数据库设计.pdf

    数据库设计的基本步骤通常遵循自顶向下、逐步细化的原则,分为四个阶段: 1. 需求分析,收集和分析用户需求,创建需求说明书,包括数据元数据,用数据字典管理以确保数据一致性和统计。 2. 概念结构设计,构建反映...

    软件工程研究生的课程---数据库设计开发.rar

    数据库设计与开发是软件工程研究生课程中的核心部分,它涵盖了数据管理、数据库系统架构、查询语言、数据库设计原则以及数据库应用程序开发等多个方面。这个压缩包文件"软件工程研究生的课程---数据库设计开发.rar...

    软件项目模板-数据库设计说明书.zip

    数据库设计需遵循一定的规范化原则,以减少数据冗余和提高数据一致性。常见的范式有: 1. 第一范式(1NF):确保每个字段都不可再分。 2. 第二范式(2NF):在1NF基础上,消除部分函数依赖。 3. 第三范式(3NF):在...

    软件工程研究生的课程---数据库设计开发

    规范化理论在此过程中起到关键作用,如第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等,确保数据的完整性和减少冗余。 数据库开发包括了数据库的实施和优化。在实施阶段,我们使用特定的数据库管理系统(如...

    2021最新产品需求模板系列-数据库设计文档.doc

    《2021最新产品需求模板系列-数据库设计文档》是针对XX公司xx事业部的一项重要工作成果,旨在提供一个规范化的数据库设计模板,以满足产品需求分析的要求。这份文档详细阐述了数据库设计的基本原则、业务需求以及...

    项目-数据库设计说明书.doc

    Normalization 是对数据进行规范化的过程,以确保数据的一致性和完整性。标准化是对数据进行格式化的过程,以确保数据的可读性和可维护性。安全性是对数据进行保护的过程,以防止数据的泄露和损坏。可扩展性是指...

    数据库-原理-及应用-数据库设计(与“数据库”有关文档共74张).pptx

    - **基于3NF**:从需求分析开始,确定依赖关系,通过规范化形成符合3NF的模式集合。 - **基于视图**:从各个应用的数据需求出发,设计视图并转化为数据库模式。 设计步骤通常包括企业模式设计、概念模式设计、...

    数据库设计开发规范-阿里_数据库_falloj4_MYSQL_

    数据库设计与开发规范是软件开发过程中的重要环节,特别是在大型企业如阿里巴巴这样的环境中,严谨的数据库规范能够确保数据的一致性、稳定性和高效性。本规范主要针对MySQL,但也适用于Oracle等其他数据库系统。 1...

    javapms-1.2-beta-数据库设计

    通过这个项目,学习者将有机会实践数据库设计原则,掌握SQL语句的编写,理解JDBC的用法,以及学会如何在Java应用中处理数据库事务和优化查询性能。这是一个全面且实用的学习资源,对于提升数据库管理和Java开发能力...

    北京大学软件工程研究生的课程---数据库设计开发

    综上所述,"北京大学软件工程研究生的课程---数据库设计开发"涵盖了数据库系统的核心概念、设计原则、SQL操作、事务处理、并发控制以及分布式和大数据处理等内容,是一门全面而深入的课程,对于未来在软件工程领域...

    开发大型项目参考-数据库设计规范

    【开发大型项目参考-数据库设计规范】 在进行大型项目的数据库设计时,遵循一套严谨的规范至关重要,这不仅可以确保系统的稳定性和可维护性,还能提高团队之间的沟通效率。国内知名大型软件公司的数据库设计规范...

Global site tag (gtag.js) - Google Analytics