关系型数据库可以看作一个大的集合,数据库中每张表可以认为是这个集合中的每个元素。每个数据表又可以看作一个小的集合,表中的数据为该集合的元素。
如果让我们根据项目设计一个关系数据库,来存储项目数据,我们该如何设计一个冗余小,结构合理的数据库呢?
为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。
目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。一般说来,数据库只需满足第三范式(3NF)就行了。
一、什么是范式
第一范式:数据表中的每一列(每个字段)必须是不可拆分的最小单元,也就是确保每一列的原子性;
订单号 | 日期 | 用户id | 用户名称 | 产品编码 | 产品名称 | 数量 |
---|---|---|---|---|---|---|
X2001 | 12-02 | U001 | 白展堂 | P101,P102 | 路由器,充电宝 | 1,1 |
X2002 | 12-02 | U002 | 吕秀才 | P203,P304 | 手机,电脑 | 1,1 |
X2003 | 12-02 | U003 | 郭老板 | P101,P102 | 路由器,充电宝 | 1,1 |
如图:产品编码、产品名称、数量这三列就不是不可拆分的最小单元,即不满足每一列的原子性,故此表不满足1NF
按照1NF,我们应该将此表拆成一张订单表,和订单明细表 订单表:
订单号 | 日期 | 用户id | 用户名称 |
---|---|---|---|
X2001 | 12-02 | U001 | 白展堂 |
X2002 | 12-02 | U002 | 吕秀才 |
X2003 | 12-02 | U003 | 郭老板 |
订单明细表:
订单号 | 产品编码 | 产品名称 | 单价 | 数量 |
---|---|---|---|---|
X2001 | P101 | 路由器 | 137 | 1 |
X2001 | P102 | 充电宝 | 69 | 1 |
X2002 | P203 | 手机 | 1999 | 1 |
X2002 | P304 | 电脑 | 7865 | 1 |
X2003 | P101 | 路由器 | 137 | 1 |
X2003 | P102 | 充电宝 | 69 | 1 |
第二范式:满足1NF后,要求表中的每一列,都必须(直接或间接)依赖于主键,而不能有任何一列与主键没有关系,也就是说一个表只描述一个对象。如果一张表描述多个内容,则应该拆成多张表;
如上图,明细表主键为 订单号+产品编码,其他字段都直接或间接和主键相关,故满足2NF
第三范式:必须先满足2NF,要求表中的每一列只与主键直接相关而不是间接相关;
根据3NF,则表结构应该拆分如下:
订单表:
订单号 | 日期 | 用户id |
---|---|---|
X2001 | 12-02 | U001 |
X2002 | 12-02 | U002 |
X2003 | 12-02 | U003 |
明细表:
订单号 | 产品编码 | 数量 |
---|---|---|
X2001 | P101 | 1 |
X2001 | P102 | 1 |
X2002 | P203 | 1 |
X2002 | P304 | 1 |
X2003 | P101 | 1 |
X2003 | P102 | 1 |
客户表:
用户id | 用户名称 |
---|---|
U001 | 白展堂 |
U002 | 吕秀才 |
U003 | 郭老板 |
产品表
产品编码 | 产品名称 | 单价 |
---|---|---|
P101 | 路由器 | 137 |
P102 | 充电宝 | 69 |
P203 | 手机 | 1999 |
P304 | 电脑 | 7865 |
二、反范式化 没有冗余的数据库设计可以做到。但是,没有冗余的数据库未必是最好的数据库,有时为了提高运行效率,就必须降低范式标准,适当保留冗余数据。具体做法是:在概念数据模型设计时遵守第三范式,降低范式标准的工作放到物理数据模型设计时考虑。降低范式就是增加字段,允许冗余,达到以空间换时间的目的。
三、范式化设计和反范式化设计的优缺点 范式化
优点: 1· 可以尽量的减少数据冗余 2·数据表更新快体积小 3·范式化的更新操作比反范式化更快 4·范式化的表通常比反范式化更小
缺点: 1·对于查询需要对多个表进行关联,导致性能降低 2·更难进行索引优化
反范式化
优点: 1·可以减少表的关联 2·可以更好地进行索引优化
缺点 1·存在数据冗余及数据维护异常 2·对数据的修改需要更多成本