第1章 绪论
1.1数据库系统概述
数据库的地位
-
数据库技术产生于六十年代末,是数据管理的有效技术,是计算机科学的重要分支。
-
数据库技术是信息系统的核心和基础,它的出现极大地促进了计算机应用向各行各业的渗透。
-
数据库已经成为每个人生活中不可缺少的部分。
数据库的4个基本概念
数据(Data)
数据(Data)是数据库中存储的基本对象
数据的定义——描述事物的符号记录
数据的种类——数字、文字、图形、图像、音频、视频、学生的档案记录等
数据的含义称为数据的语义,数据与其语义是不可分的。
例如 93是一个数据
语义1:学生某门课的成绩
语义2:某人的体重
语义3:计算机系2013级学生人数
学生档案中的学生记录
(李明,男,199505,江苏南京市,计算机系,2013)
语义:学生姓名、性别、出生年月、出生地、所在院系、入学时间
解释:李明是个大学生,1995年5月出生,江苏南京市人, 2013年考入计算机系
数据库(Database)
数据库的定义
数据库(Database,简称DB)是长期储存在计算机内、有组织的、可共享的大量数据的集合。
数据库的基本特征
- 数据按一定的数据模型组织、描述和存储
- 可为各种用户共享
- 冗余度较小
- 数据独立性较高
- 易扩展
数据库管理系统(DBMS)
什么是数据库管理系统
-
位于用户与操作系统之间的一层数据管理软件
-
是基础软件,是一个大型复杂的软件系统
数据库管理系统的用途
- 科学地组织和存储数据、高效地获取和维护数据
数据库在计算机系统中的位置
数据库管理系统的主要功能
- 数据定义功能
- 提供数据定义语言(DDL)
- 定义数据库中的数据对象
- 数据组织、存储和管理
- 分类组织、存储和管理各种数据
- 确定组织数据的文件结构和存取方式
- 实现数据之间的联系
- 提供多种存取方法提高存取效率
- 数据操纵功能
- 提供数据操纵语言(DML)
- 实现对数据库的基本操作 (查询、插入、删除和修改)
- 数据库的事务管理和运行管理
- 数据库在建立、运行和维护时由数据库管理系统统一管理和控制
- 保证数据的安全性、完整性、多用户对数据的并发使用
- 发生故障后的系统恢复
- 数据库的建立和维护功能
- 数据库初始数据的装载和转换
- 数据库转储、恢复功能
- 数据库的重组织
- 性能监视、分析等
- 其它功能
- 数据库管理系统与网络中其它软件系统的通信
- 数据库管理系统系统之间的数据转换
- 异构数据库之间的互访和互操作
数据库系统(DBS)
数据库系统(Database System,简称DBS)
数据库系统的构成
-
数据库
-
数据库管理系统(及其应用开发工具)
-
应用程序
-
数据库管理员(DBA)
数据管理技术的产生和发展
什么是数据管理
- 对数据进行分类、组织、编码、存储、检索和维护
- 数据处理的中心问题
数据管理技术的发展过程
- 人工管理阶段(20世纪50年代中之前)
- 文件系统阶段(20世纪50年代末——60年代中)
- 数据库系统阶段(20世纪60年代末——现在)
数据管理技术的发展动力
- 应用需求的推动
- 计算机硬件的发展
- 计算机软件的发展
1.人工管理阶段
时期:20世纪50年代中之前
产生的背景
- 应用背景 科学计算
- 硬件背景 无直接存取存储设备
- 软件背景 没有操作系统
- 处理方式 批处理
特点
- 数据的管理者:用户(程序员), 数据不保存
- 数据面向的对象:某一应用程序
- 数据的共享程度:无共享、冗余度极大
- 数据的独立性:不独立,完全依赖于程序
- 数据的结构化:无结构
- 数据控制能力:应用程序自己控制
2.文件系统阶段
时期:20世纪50年代末–60年代中
产生的背景
-
应用背景 科学计算、数据管理
-
硬件背景 磁盘、磁鼓
-
软件背景 有文件系统
-
处理方式 联机实时处理、批处理
特点
-
数据的管理者:文件系统,数据可长期保存
-
数据面向的对象:某一应用
-
数据的共享程度:共享性差、冗余度大
-
数据的结构化:记录内有结构,整体无结构
-
数据的独立性:独立性差
-
数据控制能力:应用程序自己控制
3.数据库系统阶段
时期:20世纪60年代末以来
产生的背景
-
应用背景 大规模数据管理
-
硬件背景 大容量磁盘、磁盘阵列
-
软件背景 有数据库管理系统
-
处理方式 联机实时处理,分布处理,批处理
文件系统到数据库系统 标志着数据管理技术的飞跃
数据库系统的特点
数据结构化
数据的整体结构化是数据库的主要特征之一
整体结构化
-
不再仅仅针对某一个应用,而是面向全组织
-
不仅数据内部结构化,整体是结构化的,数据之间具有联系
-
数据记录可以变长
-
数据的最小存取单位是数据项
数据的用数据模型描述,无需应用程序定义
数据的共享性高,冗余度低且易扩充
数据面向整个系统,可以被多个用户、多个应用共享使用。
数据共享的好处
-
减少数据冗余,节约存储空间
-
避免数据之间的不相容性与不一致性
-
使系统易于扩充
数据独立性高
物理独立性
指用户的应用程序与数据库中数据的物理存储是相互独立的。当数据的物理存储改变了,应用程序不用改变。
逻辑独立性
指用户的应用程序与数据库的逻辑结构是相互独立的。数据的逻辑结构改变了,应用程序不用改变。
数据独立性由数据库管理系统的二级映像功能来保证。
数据由数据库管理系统统一管理和控制
(1)数据的安全性(Security)保护
保护数据以防止不合法的使用造成的数据的泄密和破坏。
(2)数据的完整性(Integrity)检查
保证数据的正确性、有效性和相容性。
(3)并发(Concurrency)控制
对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
(4)数据库恢复(Recovery)
将数据库从错误状态恢复到某一已知的正确状态。
数据库概念小结
-
数据库是长期存储在计算机内有组织的大量的共享的数据集合。
-
可以供各种用户共享,具有最小冗余度和较高的数据独立性。
-
数据库管理系统在数据库建立、运用和维护时对数据库进行统一控制,以保证数据的完整性、安全性,并在多用户同时使用数据库时进行并发控制,在发生故障后对数据库进行恢复。
1.2数据模型
数据模型是对现实世界数据特征的抽象。
通俗地讲数据模型就是现实世界的模拟。
数据模型应满足三方面要求
-
能比较真实地模拟现实世界
-
容易为人所理解
-
便于在计算机上实现
数据模型是数据库系统的核心和基础
两类数据模型
数据模型分为两类(两个不同的层次)
(1) 概念模型 也称信息模型,它是按用户的观点来对数据和信息建模,用于数据库设计。
(2) 逻辑模型和物理模型
-
逻辑模型主要包括网状模型、层次模型、关系模型、面向对象数据模型、对象关系数据模型、半结构化数据模型等。按计算机系统的观点对数据建模,用于DBMS实现。
-
物理模型是对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法。
客观对象的抽象过程—两步抽象
现实世界中的客观对象抽象为概念模型;
- 将现实世界抽象为信息世界
把概念模型转换为某一数据库管理系统支持的数据模型。
- 将信息世界转换为机器世界
概念模型
概念模型的用途
-
概念模型用于信息世界的建模
-
是现实世界到机器世界的一个中间层次
-
是数据库设计的有力工具
-
数据库设计人员和用户之间进行交流的语言
对概念模型的基本要求
-
较强的语义表达能力
-
简单、清晰、易于用户理解
- 信息世界中的基本概念
- 概念模型的一种表示方法:实体-联系方法
(1)实体(Entity)
客观存在并可相互区别的事物称为实体。
可以是具体的人、事、物或抽象的概念。
(2)属性(Attribute)
实体所具有的某一特性称为属性。
一个实体可以由若干个属性来刻画。
(3)码(Key)
唯一标识实体的属性集称为码。
(4)实体型(Entity Type)
用实体名及其属性名集合来抽象和刻画同类实体称为实体型
(5)实体集(Entity Set)
同一类型实体的集合称为实体集
(6)联系(Relationship)
-
现实世界中事物内部以及事物之间的联系在信息世界中反映为实体(型)内部的联系和实体(型)之间的联系。
-
实体内部的联系通常是指组成实体的各属性之间的联系
-
实体之间的联系通常是指不同实体集之间的联系
-
实体之间的联系有一对一、一对多和多对多等多种类型
实体-联系方法(Entity-Relationship Approach)
用E-R图来描述现实世界的概念模型
E-R方法也称为E-R模型
数据模型的组成要素
数据结构
数据模型的数据结构
- 描述数据库的组成对象,以及对象之间的联系
描述的内容
- 与对象的类型、内容、性质有关
- 与数据之间联系有关
数据结构是对系统静态特性的描述
数据操作
- 对数据库中各种对象(型)的实例(值)允许执行的操作的集合,包括操作及有关的操作规则
数据操作的类型
-
查询
-
更新(包括插入、删除、修改)
数据模型对操作的定义
-
操作的确切含义
-
操作符号
-
操作规则(如优先级)
-
实现操作的语言
数据操作是对系统动态特性的描述
数据的完整性约束条件
-
一组完整性规则的集合
-
完整性规则:给定的数据模型中数据及其联系所具有的制约和依存规则
-
用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效和相容
数据模型对完整性约束条件的定义
-
反映和规定必须遵守的基本的通用的完整性约束条件。
-
提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
常见的数据模型
- 层次模型(Hierarchical Model):
- 数据结构以树状形式组织,父子关系明确
- 数据访问只能通过从根到叶的路径
- 适合具有明确层次关系的数据,但扩展性和灵活性较差
- 网状模型(Network Model):
- 数据结构以网状形式组织,包含多对多的关系
- 可直接访问任意节点,灵活性强
- 但结构复杂,开发和维护成本较高
- 关系模型(Relational Model):
- 数据以二维表格(relation)的形式组织
- 表格由行(tuple)和列(attribute)构成
- 表格之间通过键(key)建立联系
- 查询语言简单,操作灵活,广泛应用于商业系统
- 面向对象数据模型(Object Oriented Data Model):
- 数据以对象(object)形式组织
- 对象包含属性和方法
- 支持封装、继承和多态等面向对象特性
- 适合复杂数据结构和业务逻辑的建模
- 对象关系数据模型(Object Relational Data Model):
- 结合了关系模型和面向对象模型的优点
- 保留了关系模型的简单查询,同时支持对象特性
- 适合需要处理复杂数据类型和业务逻辑的应用
- 半结构化数据模型(Semistructure Data Model):
- 数据结构不完全明确,如XML、JSON等
- 数据中可以包含标签、属性等元信息
- 灵活性强,适合描述复杂、不确定的数据
- 但查询语言相对复杂,需要处理数据的半结构化特性
层次模型
-
层次模型是数据库系统中最早出现的数据模型
-
层次数据库系统的典型代表是IBM公司的IMS(Information Management System)数据库管理系统
-
层次模型用树形结构来表示各类实体以及实体间的联系
满足下面两个条件的基本层次联系的集合为层次模型
- 有且只有一个结点没有双亲结点,这个结点称为根结点
- 根以外的其它结点有且只有一个双亲结点
层次模型中的几个术语
- 根结点,双亲结点,兄弟结点,叶结点
层次模型的特点:
-
结点的双亲是唯一的
-
只能直接处理一对多的实体联系
-
每个记录类型可以定义一个排序字段,也称为码字段
-
任何记录值只有按其路径查看时,才能显出它的全部意义
-
没有一个子女记录值能够脱离双亲记录值而独立存在
层次模型的数据操纵
-
查询
-
插入
-
删除
-
更新
层次模型的完整性约束条件
-
无相应的双亲结点值就不能插入子女结点值
-
如果删除双亲结点值,则相应的子女结点值也被同时删除
-
更新操作时,应更新所有相应记录,以保证数据的一致性
层次模型的优缺点
优点
-
层次模型的数据结构比较简单清晰
-
查询效率高,性能优于关系模型,不低于网状模型
-
层次数据模型提供了良好的完整性支持
缺点
-
结点之间的多对多联系表示不自然
-
对插入和删除操作的限制多,应用程序的编写比较复杂
-
查询子女结点必须通过双亲结点
-
层次命令趋于程序化
网状模型
网状数据库系统采用网状模型作为数据的组织方式
典型代表是DBTG系统:
-
亦称CODASYL系统
-
20世纪70年代由DBTG提出的一个系统方案
实际系统
-
Cullinet Software公司的 IDMS
-
Univac公司的 DMS1100
-
Honeywell公司的IDS/2
-
HP公司的IMAGE
满足下面两个条件的基本层次联系的集合:
- 允许一个以上的结点无双亲;
- 一个结点可以有多于一个的双亲。
表示方法(与层次数据模型相同)
实体型:用记录类型描述每个结点表示一个记录类型(实体)
属性:用字段描述每个记录类型可包含若干个字段
联系:用结点之间的连线表示记录类型(实体)之间的一对多的父子联系
网状模型与层次模型的区别
-
网状模型允许多个结点没有双亲结点
-
网状模型允许结点有多个双亲结点
-
网状模型允许两个结点之间有多种联系(复合联系)
-
网状模型可以更直接地描述现实世界
-
层次模型实际上是网状模型的一个特例
-
网状模型中子女结点与双亲结点的联系可以不唯一
要为每个联系命名,并指出与该联系有关的双亲记录和子女记录
多对多联系在网状模型中的表示
-
用网状模型间接表示多对多联系
-
方法:
将多对多联系直接分解成一对多联系
例如:一个学生可以选修若干门课程,某一课程可以被多个学生选修,学生与课程之间是多对多联系
引进一个学生选课的联结记录,由3个数据项组成
-
学号
-
课程号
-
成绩
-
表示某个学生选修某一门课程及其成绩
网状数据库系统(如DBTG)对数据操纵加了一些限制,提供了一定的完整性约束
-
码:唯一标识记录的数据项的集合
-
一个联系中双亲记录与子女记录之间是一对多联系
-
支持双亲记录和子女记录之间某些约束条件
网状模型的优缺点
优点
-
能够更为直接地描述现实世界,如一个结点可以有多个双亲
-
具有良好的性能,存取效率较高
缺点
-
结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
-
DDL、DML语言复杂,用户不容易使用
-
记录之间联系是通过存取路径实现的,用户必须了解系统结构的细节
关系模型
-
关系数据库系统采用关系模型作为数据的组织方式
-
1970年美国IBM公司San Jose研究室的研究员E.F.Codd首次提出了数据库系统的关系模型
-
计算机厂商新推出的数据库管理系统几乎都支持关系模型
-
在用户观点下,关系模型中数据的逻辑结构是一张二维表,它由行和列组成。
-
关系(Relation)
一个关系对应通常说的一张表 -
元组(Tuple)
表中的一行即为一个元组 -
属性(Attribute)
表中的一列即为一个属性,给每一个属性起一个名称即属性名 -
主码(Key)
也称码键。表中的某个属性组,它可以唯一确定一个元组 -
域(Domain)
是一组具有相同数据类型的值的集合。属性的取值范围来自某个域。 -
分量
元组中的一个属性值。 -
关系模式
对关系的描述
关系名(属性1,属性2,…,属性n)
学生(学号,姓名,年龄,性别,系名,年级)
关系必须是规范化的,满足一定的规范条件
最基本的规范条件:关系的每一个分量必须是一个不可分的
数据项, 不允许表中还有表
图1.15中工资和扣除是可分的数据项 ,不符合关系模型要求
关系模型的操纵与完整性约束
数据操作是集合操作,操作对象和操作结果都是关系
- 查询
- 插入
- 删除
- 更新
存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干”
关系的完整性约束条件
-
实体完整性
-
参照完整性
-
用户定义的完整性
关系模型的优缺点
优点
-
建立在严格的数学概念的基础上
-
概念单一
实体和各类联系都用关系来表示
对数据的检索结果也是关系 -
关系模型的存取路径对用户透明
具有更高的数据独立性,更好的安全保密性
简化了程序员的工作和数据库开发建立的工作
缺点
-
存取路径对用户透明,查询效率往往不如格式化数据模型
-
为提高性能,必须对用户的查询请求进行优化,增加了开发数据库管理系统的难度
小结
1.3 数据库系统的结构
从数据库应用开发人员角度看,数据库系统通常采用三级模式结构,是数据库系统内部的系统结构
从数据库最终用户角度看,数据库系统的结构分为:
-
单用户结构
-
主从式结构
-
分布式结构
-
客户-服务器
-
浏览器-应用服务器/数据库服务器多层结构等
数据库模式的概念
“型” 和“值” 的概念
型(Type)
对某一类数据的结构和属性的说明
值(Value)
是型的一个具体赋值
例如
学生记录:
(学号,姓名,性别,系别,年龄,籍贯)
一个记录值:
(201315130,李明,男,计算机系,19,江苏南京市)
模式(Schema)
-
数据库逻辑结构和特征的描述
-
是型的描述,不涉及具体值
-
反映的是数据的结构及其联系
-
模式是相对稳定的
实例(Instance)
-
模式的一个具体值
-
反映数据库某一时刻的状态
-
同一个模式可以有很多实例
-
实例随数据库中的数据的更新而变动
例如:在学生选课数据库模式中,包含学生记录、课程记录和学生选课记录
2013年的一个学生数据库实例,包含:
-
2013年学校中所有学生的记录
-
学校开设的所有课程的记录
-
所有学生选课的记录
2012年度学生数据库模式对应的实例与
- 2013年度学生数据库模式对应的实例是不同的
数据库系统的三级模式结构
模式(Schema)
外模式(External Schema)
内模式(Internal Schema)
1.模式(Schema)
模式(也称逻辑模式)
-
数据库中全体数据的逻辑结构和特征的描述
-
所有用户的公共数据视图
一个数据库只有一个模式
模式的地位:是数据库系统模式结构的中间层
-
与数据的物理存储细节和硬件环境无关
-
与具体的应用程序、开发工具及高级程序设计语言无关
模式的定义
-
数据的逻辑结构(数据项的名字、类型、取值范围等)
-
数据之间的联系
-
数据有关的安全性、完整性要求
2.外模式(External Schema)
外模式(也称子模式或用户模式)
数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
外模式的地位:介于模式与应用之间
模式与外模式的关系:一对多
-
外模式通常是模式的子集
-
一个数据库可以有多个外模式。反映了不同的用户的应用需求、看待数据的方式、对数据保密的要求
-
对模式中同一数据,在外模式中的结构、类型、长度、保密级别等都可以不同
外模式与应用的关系:一对多
-
同一外模式也可以为某一用户的多个应用系统所使用
-
但一个应用程序只能使用一个外模式
外模式的用途
-
保证数据库安全性的一个有力措施
-
每个用户只能看见和访问所对应的外模式中的数据
3.内模式(Internal Schema)
内模式也称存储模式
-
是数据物理结构和存储方式的描述
-
是数据在数据库内部的表示方式
- 记录的存储方式(例如,顺序存储,按照B树结构存储,按hash方法存储等)
- 索引的组织方式
- 数据是否压缩存储
- 数据是否加密
- 数据存储记录结构的规定
一个数据库只有一个内模式
数据库的二级映像功能与数据独立性
三级模式是对数据的三个抽象级别
二级映象在数据库管理系统内部实现这三个抽象层次的联系和转换
-
外模式/模式映像
-
模式/内模式映像
1.外模式/模式映像
-
模式:描述的是数据的全局逻辑结构
-
外模式:描述的是数据的局部逻辑结构
-
同一个模式可以有任意多个外模式
-
每一个外模式,数据库系统都有一个外模式/模式映象,定义外模式与模式之间的对应关系
-
映象定义通常包含在各自外模式的描述中
保证数据的逻辑独立性
-
当模式改变时,数据库管理员对外模式/模式映象作相应改变,使外模式保持不变
-
应用程序是依据数据的外模式编写的,应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性
2.模式/内模式映像
-
模式/内模式映象定义了数据全局逻辑结构与存储结构之间的对应关系。
例如,说明逻辑记录和字段在内部是如何表示的 -
数据库中模式/内模式映象是唯一
-
该映象定义通常包含在模式描述中
保证数据的物理独立性
-
当数据库的存储结构改变了(例如选用了另一种存储结构),数据库管理员修改模式/内模式映象,使模式保持不变。
-
应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。
小结
数据库模式
-
即全局逻辑结构是数据库的中心与关键
-
独立于数据库的其他层次
-
设计数据库模式结构时应首先确定数据库的逻辑模式
数据库的内模式
-
依赖于它的全局逻辑结构
-
独立于数据库的用户视图,即外模式
-
独立于具体的存储设备
-
将全局逻辑结构中所定义的数据结构及其联系按照一定的物理存储策略进行组织,以达到较好的时间与空间效率
数据库的外模式
-
面向具体的应用程序
-
定义在逻辑模式之上
-
独立于存储模式和存储设备
-
当应用需求发生较大变化,相应外模式不能满足其视图要求时,该外模式就得做相应改动
-
设计外模式时应充分考虑到应用的扩充性
特定的应用程序
-
在外模式描述的数据结构上编制的
-
依赖于特定的外模式
-
与数据库的模式和存储结构独立
-
不同的应用程序有时可以共用同一个外模式
数据库的二级映像
-
保证了数据库外模式的稳定性
-
从底层保证了应用程序的稳定性,除非应用需求本身发生变化,否则应用程序一般不需要修改
数据与程序之间的独立性,使得数据的定义和描述可以从应用程序中分离出去
数据的存取由数据库管理系统管理
-
简化了应用程序的编制
-
大大减少了应用程序的维护和修改
1.4 数据库系统的组成
硬件平台及数据库
数据库系统对硬件资源的要求
-
足够大的内存
-
足够的大的磁盘或磁盘阵列等设备
-
较高的通道能力,提高数据传送率
软件
-
数据库管理系统
-
支持数据库管理系统运行的操作系统
-
与数据库接口的高级语言及其编译系统
-
以数据库管理系统为核心的应用开发工具
-
为特定应用环境开发的数据库应用系统
人员
-
数据库管理员
-
系统分析员和数据库设计人员
-
应用程序员
-
最终用户
不同的人员涉及不同的数据抽象级别,具有不同的数据视图,如下图所示
1.数据库管理员(DBA)
具体职责:
-
决定数据库中的信息内容和结构
-
决定数据库的存储结构和存取策略
-
定义数据的安全性要求和完整性约束条件
-
监控数据库的使用和运行
周期性转储数据库- 数据文件
- 日志文件
系统故障恢复
介质故障恢复
监视审计文件
-
数据库的改进和重组
- 性能监控和调优
- 定期对数据库进行重组织,以提高系统的性能
- 需求增加和改变时,数据库须需要重构造
2.系统分析员和数据库设计人员
系统分析员
-
负责应用系统的需求分析和规范说明
-
与用户及数据库管理员结合,确定系统的硬软件配置
-
参与数据库系统的概要设计
数据库设计人员
-
参加用户需求调查和系统分析
-
确定数据库中的数据
-
设计数据库各级模式
3.应用程序员
-
设计和编写应用系统的程序模块
-
进行调试和安装
4.用户
用户是指最终用户(End User)。最终用户通过应用系统的用户接口使用数据库。
-
偶然用户
- 不经常访问数据库,但每次访问数据库时往往需要不同的数据库信息
- 企业或组织机构的高中级管理人员
-
简单用户
- 主要工作是查询和更新数据库
- 银行的职员、机票预定人员、旅馆总台服务员
-
复杂用户
- 工程师、科学家、经济学家、科技工作者等
- 直接使用数据库语言访问数据库,甚至能够基于数据库管理系统的应用程序接口编制自己的应用程序
小结
小结
数据库系统概述
-
数据库的基本概念
-
数据管理的发展过程
-
数据库系统的特点
数据模型
-
数据模型的三要素
-
三种主要数据库模型
数据库系统内部的系统结构
-
数据库系统三级模式结构
-
数据库系统两层映像系统结构
数据库系统的组成
第2章 关系数据库
提出关系模型的是美国IBM公司的E.F.Codd
-
1970年提出关系数据模型
E.F.Codd, “A Relational Model of Data for Large
Shared Data Banks”, 《Communication of the
ACM》,1970
-
之后,提出了关系代数和关系演算的概念
-
1972年提出了关系的第一、第二、第三范式
-
1974年提出了关系的BC范式
2.1 关系数据结构及形式化定义
关系
-
单一的数据结构----关系
现实世界的实体以及实体间的各种联系均用关系来表示 -
逻辑结构----二维表
从用户角度,关系模型中数据的逻辑结构是一张二维表 -
建立在集合代数的基础上
域(Domain)
域是一组具有相同数据类型的值的集合。例:
整数
实数
介于某个取值范围的整数
指定长度的字符串集合
……………
笛卡尔积(Cartesian Product)
-
所有域的所有取值的一个组合
-
不能重复
元组(Tuple)
笛卡尔积中每一个元素(d1,d2,…,dn)叫作一个n元组(n-tuple)或简称元组
(张清玫,计算机专业,李勇)、
(张清玫,计算机专业,刘晨) 等 都是元组
分量(Component)
笛卡尔积元素(d1,d2,…,d**n)中的每一个值di 叫作一个分量
张清玫、计算机专业、李勇、刘晨等都是分量
基数(Cardinal number)
若Di(i=1,2,…,n)为有限集,其基数为mi(i=1,2,…,n),则D1×D2×…×Dn的基数M为:
- 笛卡尔积的表示方法
笛卡尔积可表示为一张二维表
表中的每行对应一个元组,表中的每列对应一个域
例如,给出3个域:
D1=导师集合SUPERVISOR={张清玫,刘逸}
D2=专业集合SPECIALITY={计算机专业,信息专业}
D3=研究生集合POSTGRADUATE={李勇,刘晨,王敏}
D1,D2,D3的笛卡尔积为
D1×D2×D3={
(张清玫,计算机专业,李勇),(张清玫,计算机专业,刘晨),
(张清玫,计算机专业,王敏),(张清玫,信息专业,李勇),
(张清玫,信息专业,刘晨),(张清玫,信息专业,王敏),
(刘逸,计算机专业,李勇),(刘逸,计算机专业,刘晨),
(刘逸,计算机专业,王敏),(刘逸,信息专业,李勇),
(刘逸,信息专业,刘晨),(刘逸,信息专业,王敏) }
基数为2×2×3=12
关系(Relation)
(1) 关系
R:关系名
n:关系的目或度(Degree)
(2)元组
关系中的每个元素是关系中的元组,通常用t表示。
(3)单元关系与二元关系
当n=1时,称该关系为单元关系(Unary relation)
或一元关系
当n=2时,称该关系为二元关系(Binary relation)
(4)关系的表示
关系也是一个二维表,表的每行对应一个元组,表的每列对应一个域
(5)属性
关系中不同列可以对应相同的域
为了加以区分,必须对每列起一个名字,称为属性(Attribute)
目关系必有n个属性
(6)码
候选码(Candidate key)
若关系中的某一属性组的值能唯一地标识一个元组,则称该属性组为候选码
简单的情况:候选码只包含一个属性
全码(All-key)
最极端的情况:关系模式的所有属性组是这个关系模式的候选码,称为全码(All-key)
主码
若一个关系有多个候选码,则选定其中一个为主码(Primary key)
主属性
候选码的诸属性称为主属性(Prime attribute)
不包含在任何侯选码中的属性称为非主属性(Non-Prime attribute)或非码属性(Non-key attribute)
D1,D2,…,Dn的笛卡尔积的某个子集才有实际含义
例:表2.1 的笛卡尔积没有实际意义
取出有实际意义的元组来构造关系
关系:SAP(SUPERVISOR,SPECIALITY,POSTGRADUATE)
假设:导师与专业:n:1, 导师与研究生:1:n
主码:POSTGRADUATE(假设研究生不会重名)
SUPERVISOR | SPECIALITY | POSTGRADUATE |
---|---|---|
张清玫 | 计算机专业 | 李勇 |
张清玫 | 计算机专业 | 刘晨 |
刘逸 | 信息专业 | 王敏 |
(7)三类关系
-
基本关系(基本表或基表)
实际存在的表,是实际存储数据的逻辑表示 -
查询表
查询结果对应的表 -
视图表
由基本表或其他视图表导出的表,是虚表,不对
应实际存储的数据
(8)基本关系的性质
① 列是同质的(Homogeneous)
② 不同的列可出自同一个域
其中的每一列称为一个属性
不同的属性要给予不同的属性名
③ 列的顺序无所谓,,列的次序可以任意交换
④ 任意两个元组的候选码不能相同
⑤ 行的顺序无所谓,行的次序可以任意交换
⑥ 分量必须取原子值
这是规范条件中最基本的一条
关系模式
什么是关系模式
关系模式(Relation Schema)是型
关系是值
关系模式是对关系的描述
-
元组集合的结构
- 属性构成
- 属性来自的域
- 属性与域之间的映象关系
-
完整性约束条件
定义关系模式
R(U,D,DOM,F)
R 关系名
U 组成该关系的属性名集合
D U中属性所来自的域
DOM 属性向域的映象集合
F 属性间数据的依赖关系的集合
例:
导师和研究生出自同一个域——人,
取不同的属性名,并在模式中定义属性向域
的映象,即说明它们分别出自哪个域:
DOM(SUPERVISOR-PERSON)
= DOM(POSTGRADUATE-PERSON)
= PERSON
关系模式通常可以简记为
R (U) 或 R (A1,A2,…,An)
R: 关系名
A1,A2,…,An : 属性名
注:域名及属性向域的映象常常直接说明为
属性的类型、长度
关系模式与关系
-关系模式
- 对关系的描述
- 静态的、稳定的
关系
- 关系模式在某一时刻的状态或内容
- 动态的、随时间不断变化的
关系模式和关系往往笼统称为关系
通过上下文加以区别
关系数据库
关系数据库
在一个给定的应用领域中,所有关系的集合构成一个关系数据库
关系数据库的型与值
- 关系数据库的型: 关系数据库模式,是对关系数据库的描述
- 关系数据库的值: 关系模式在某一时刻对应的关系的集合,通常称为关系数据库
关系模型的存储结构
关系数据库的物理组织
- 有的关系数据库管理系统中一个表对应一个操作系统文件,将物理数据组织交给操作系统完成
- 有的关系数据库管理系统从操作系统那里申请若干个大的文件,自己划分文件空间,组织表、索引等存储结构,并进行存储管理
小结
2.2 关系操作
常用的关系操作
-
查询操作:选择、投影、连接、除、并、差、交、笛卡尔积
选择、投影、并、差、笛卡尔基是5种基本操作
-
数据更新:插入、删除、修改
关系操作的特点
集合操作方式:操作的对象和结果都是集合,一次一集合的方式
关系数据库语言的分类
关系代数语言
- 用对关系的运算来表达查询要求
- 代表:ISBL
关系演算语言:用谓词来表达查询要求
- 元组关系演算语言
谓词变元的基本对象是元组变量
代表:APLHA, QUEL - 域关系演算语言
谓词变元的基本对象是域变量
代表:QBE
具有关系代数和关系演算双重特点的语言
代表:SQL(Structured Query Language)
小结
2.3 关系的完整性
实体完整性和参照完整性
关系模型必须满足的完整性约束条件称为关系的两个不变性,应该由关系系统自动支持
用户定义的完整性
应用领域需要遵循的约束条件,体现了具体领域中的语义约束
实体完整性
规则2.1 实体完整性规则(Entity Integrity)
- 若属性A是基本关系R的主属性,则属性A不能取空值
- 空值就是“不知道”或“不存在”或“无意义”的值
例:
选修(学号,课程号,成绩)
“学号、课程号”为主码
“学号”和“课程号”两个属性都不能取空值
实体完整性规则的说明
(1)实体完整性规则是针对基本关系而言的。
一个基本表通常对应现实世界的一个实体集。
(2)现实世界中的实体是可区分的,即它们具有某种唯一性标识。
(3)关系模型中以主码作为唯一性标识。
(4)主码中的属性即主属性不能取空值。
主属性取空值,就说明存在某个不可标识的实体,即存在不可区分的实体,这与第(2)点相矛盾,因此这个规则称为实体完整性
参照完整性
关系间的引用
在关系模型中实体及实体间的联系都是用关系来描述的,自然存在着关系与关系间的引用。
学生关系引用了专业关系的主码“专业号”。
学生关系中的“专业号”值必须是确实存在的专业的专业号
例[2.2] 学生、课程、学生与课程之间的多对多联系
学生(学号,姓名,性别,专业号,年龄)
课程(课程号,课程名,学分)
选修(学号,课程号,成绩)
例[2.3] 学生实体及其内部的一对多联系
学生(学号,姓名,性别,专业号,年龄,班长)
“学号”是主码,“班长”是外码,它引用了本关系的“学号”
“班长” 必须是确实存在的学生的学号
外码
设F是基本关系R的一个或一组属性,但不是关系R的码。如果F与基本关系S的主码Ks相对应,则称F是R的外码
基本关系R称为参照关系(Referencing Relation)
基本关系S称为被参照关系(Referenced Relation)
或目标关系(Target Relation)
[例2.1]中学生关系的“专业号”与专业关系的主码“专业号”相对应
“专业号”属性是学生关系的外码
专业关系是被参照关系,学生关系为参照关系
[例2.2]中
选修关系的“学号” 与学生关系的主码“学号”相对应
选修关系的“课程号”与课程关系的主码“课程号”相对应
“学号”和“课程号”是选修关系的外码
学生关系和课程关系均为被参照关系
选修关系为参照关系
[例2.3]中“班长”与本身的主码“学号”相对应
“班长”是外码
学生关系既是参照关系也是被参照关系
关系R和S不一定是不同的关系
目标关系S的主码Ks 和参照关系的外码F必须定义在同一个(或一组)域上
外码并不一定要与相应的主码同名
当外码与相应的主码属于不同关系时,往往取相同的名字,以便于识别
参照完整性规则
规则2.2 参照完整性规则
- 或者取空值(F的每个属性值均为空值)
- 或者等于S中某个元组的主码值
[例2.1]中
学生关系中每个元组的“专业号”属性只取两类值:
(1)空值,表示尚未给该学生分配专业
(2)非空值,这时该值必须是专业关系中某个元组的“专业号”值,表示该学生不可能分配一个不存在的专业
[例2.2] 中
选修(学号,课程号,成绩)
“学号”和“课程号”可能的取值 :
(1)选修关系中的主属性,不能取空值
(2)只能取相应被参照关系中已经存在的主码值
[例2.3] 中
学生(学号,姓名,性别,专业号,年龄,班长)
“班长”属性值可以取两类值:
(1)空值,表示该学生所在班级尚未选出班长
(2)非空值,该值必须是本关系中某个元组的学号值
用户定义的完整性
针对某一具体关系数据库的约束条件,反映某一具体应用所涉及的数据必须满足的语义要求
关系模型应提供定义和检验这类完整性的机制,以便用统一的系统的方法处理它们,而不需由应用程序承担这一功能
例:
课程(课程号,课程名,学分)
- “课程号”属性必须取唯一值
- 非主属性“课程名”也不能取空值
- “学分”属性只能取值
小结
2.4 关系代数
关系代数是一种抽象的查询语言,它用对关系的运算来表达查询
关系代数
- 运算对象是关系
- 运算结果亦为关系
- 关系代数的运算符有两类:集合运算符和专门的关系运算符
传统的集合运算是从关系的“水平”方向即行的角度进行
专门的关系运算不仅涉及行而且涉及列
传统的集合运算
(1) 并(Union)
R和S
具有相同的目n(即两个关系都有n个属性)
相应的属性取自同一个域
R∪S
仍为n目关系,由属于R或属于S的元组组成
(2)差(Difference)
R和S
具有相同的目n
相应的属性取自同一个域
R - S
仍为n目关系,由属于R而不属于S的所有元组组成
(3) 交(Intersection)
R和S
- 具有相同的目n
- 相应的属性取自同一个域
R∩S
仍为n目关系,由既属于R又属于S的元组组成
(4) 笛卡尔积(Cartesian Product)
严格地讲应该是广义的笛卡尔积(Extended Cartesian Product)
专门的关系运算
先引入几个记号
学生-课程数据库:
学生关系Student、课程关系Course和选修关系SC
选择
选择又称为限制(Restriction)
选择运算是从关系R中选取使逻辑表达式F为真的元组,是从行的角度进行的运算
[例2.4] 查询信息系(IS系)全体学生。
Sno | Sname | Ssex | Sage | Sdept |
---|---|---|---|---|
201215125 | 张立 | 男 | 19 | IS |
[例2.5] 查询年龄小于20岁的学生。
Sno | Sname | Ssex | Sage | Sdept |
---|---|---|---|---|
201215122 | 刘晨 | 女 | 19 | IS |
201215123 | 王敏 | 女 | 18 | MA |
201215125 | 张立 | 男 | 19 | IS |
投影
从R中选择出若干属性列组成新的关系
投影操作主要是从列的角度进行运算
投影之后不仅取消了原关系中的某些列,而且还可能取消某些元组(避免重复行)
[例2.6] 查询学生的姓名和所在系。
即求Student关系上学生姓名和所在系两个属性上的投影
Sname | Sdept |
---|---|
李勇 | CS |
刘晨 | CS |
王敏 | MA |
张立 | IS |
[例2.7] 查询学生关系Student中都有哪些系。
Sdept |
---|
CS |
IS |
MA |
连接
连接也称为θ连接
连接运算的含义
从两个关系的笛卡尔积中选取属性间满足一定条件的元组
A和B:分别为R和S上度数相等且可比的属性组
θ:比较运算符
连接运算从R和S的广义笛卡尔积R×S中选取R关系在A属性组上的值与S关系在B属性组上的值满足比较关系θ的元组
两类常用连接运算
等值连接(equijoin)
θ为“=”的连接运算称为等值连接
从关系R与S的广义笛卡尔积中选取A、B属性值相等的那些元组,即等值连接为:
自然连接(Natural join)
自然连接是一种特殊的等值连接
- 两个关系中进行比较的分量必须是相同的属性组
- 在结果中把重复的属性列去掉
自然连接的含义
R和S具有相同的属性组B
一般的连接操作是从行的角度进行运算。
自然连接还需要取消重复列,所以是同时从行和列的角度进行运算。
[例2.8]关系R和关系S 如下所示:
悬浮元组(Dangling tuple)
两个关系R和S在做自然连接时,关系R中某些元组有可能在S中不存在公共属性上值相等的元组,从而造成R中这些元组在操作时被舍弃了,这些被舍弃的元组称为悬浮元组。
外连接(Outer Join)
- 如果把悬浮元组也保存在结果关系中,而在其他属性上填空值(Null),就叫做外连接
- 左外连接(LEFT OUTER JOIN或LEFT JOIN)
只保留左边关系R中的悬浮元组 - 右外连接(RIGHT OUTER JOIN或RIGHT JOIN)
只保留右边关系S中的悬浮元组
下图是例2.8中关系R和关系S的外连接
图(b)是例2.8中关系R和关系S的左外连接,图©是右外连接
除运算
给定关系R (X,Y) 和S (Y,Z),其中X,Y,Z为属性组。
R中的Y与S中的Y可以有不同的属性名,但必须出自相同的
域集。
R与S的除运算得到一个新的关系P(X),
P是R中满足下列条件的元组在 X 属性列上的投影:
除操作是同时从行和列角度进行运算
[例2.9]设关系R、S分别为下图的(a)和(b),RS的结果为图©
以学生-课程数据库为例
[例2.10] 查询至少选修1号课程和3号课程的学生号码 。
首先建立一个临时关系K:
然后求:
[例2.11] 查询选修了2号课程的学生的学号。
[例2.12] 查询至少选修了一门其直接先行课为5号课程的学生姓名
[例2.13] 查询选修了全部课程的学生号码和姓名。
关系代数运算
并、差、交、笛卡尔积、投影、选择、连接、除
基本运算
并、差、笛卡尔积、投影、选择
交、连接、除
可以用5种基本运算来表达
引进它们并不增加语言的能力,但可以简化表达
关系代数表达式
关系代数运算经有限次复合后形成的式子
典型关系代数语言
ISBL(Information System Base Language)
由IBM United Kingdom研究中心研制
用于PRTV(Peterlee Relational Test Vehicle)实验系统
小结
小结
关系数据库系统是目前使用最广泛的数据库系统
关系数据库系统与非关系数据库系统的区别:
- 关系系统只有“表”这一种数据结构
- 非关系数据库系统还有其他数据结构,以及对这些数据结构的操作
关系数据结构
关系
- 域、
- 笛卡尔积
- 关系
- 关系,属性,元组
- 候选码,主码,主属性
- 基本关系的性质
关系模式
关系数据库
关系模型的存储结构
关系操作
查询
选择、投影、连接、除、并、交、差
数据更新
插入、删除、修改
关系的完整性约束
实体完整性
参照完整性
外码
用户定义的完整性
关系数据语言
-
关系代数语言
-
关系演算语言
元组关系演算语言
ALPHA域关系演算语言 QBE
评论区