关系代数基础

本章主要来自《数据库系统概论》第六章的内容,主要介绍关系代数相关的知识,其实大家也可以参考这篇文章 SQL 形式化语言——关系代数

关系代数是一种过程化查询语言,它包括一个运算的集合,这些运算以一个或两个关系为输入,产生一个新的关系为结果。

关系代数基本运算有:选择投影集合差笛卡尔积更名,也包括一些复杂的运算,比如:集合交自然连接赋值

下表是一个整体的整理:

名称 英文 符号 说明
选择 select σ 类似于 SQL 中的 where
投影 project Π 类似于 SQL 中的 select
union 类似于 SQL 中的 union
集合差 set-difference - SQL中没有对应的操作符
笛卡儿积 Cartesian-product × 类似于 SQL 中不带 on 条件的 inner join
重命名 rename ρ 类似于 SQL 中的 as
集合交 intersection SQL中没有对应的操作符
自然连接 natural join 类似于 SQL 中的 inner join
赋值 assignment

假设关系 info 有三个属性:id、name、age,代表的是这批人的年龄信息情况。

1. 基本运算

选择、投影和更名被称为一元运算,因为他们是对一个关系进行运算,另外三个运算对两个关系进行运算,称为二元运算

1.1. 选择运算

选择运算选出满足给定谓词的元组,用 σ 来表示,对应的选择谓词是其下标,比如:

σ_{id>10}(info)

从关系 info 中选出 id 大于10的所有元组。

1.2. 投影关系

假设我们想从 info 列出所有人的 name 和 age,而不关心 id,那么投影(project)运算使得我们可以产生这样的关系。投影运算返作为参数的关系,但把不需要的参数排除在外,比如这个例子可以表示成:

Π_{name,age}(info)

1.3. 关系运算的集合

关系运算的结果也是一个关系,比如:找到 age 为20的所有人的名字:

Π_{name}(σ_{age=20}(info))

多个关系代数运算时就可以组合成一个关系代数表达式。

1.4. 并运算

这里也很好理解,比如我们要找到 age 为20以及 age为30的所有人的名字,可以这样写(这里只是为了简化,实际上很少有人会这样写的):

Π_{name}(σ_{age=20}(info)) \ ∪ \ Π_{name}(σ_{age=20}(info))

并运算有下面的要求:

  1. 左右两个关系必须是同元的,即它们的属性数目必须相同;
  2. 对应属性的域必须是相同的。

1.5. 集合差运算

这里用 - 表示集合差(set-difference)运算,目的是找出在一个关系但不在另一个关系里的元组。

1.6. 笛卡尔积运算

× 表示笛卡尔积运算,可以把两个关系的信息组合在一起。

1.7. 更名运算

ρ 表示更名运算,比如:

ρ_x(E)

表示:返回表达式 E 的结果,并给其赋名为 x。

2. 附加的关系代数运算

虽然前面的基本运算已经满足需要,但是如果只用上面介绍的基本运算,将会使某些查询显得特别冗长,因此,又定义了一些新的运算,来简化一些查询的表示。

2.1. 集合交运算

集合交用 ∩ 来表示,集合交也可以换算成一些基本运算的表达式,如下所示:

r\ ∩ \ s= r\ -\ (r\ -\ s)

2.2. 自然连接运算

自然连接(join)运算主要是将某些选择跟笛卡尔积运算合并在一起表示,它会将两个关系模式中都出现的属性上的相等性进行选择,最后还要去除重复属性,用 ⋈ 来表示。

2.3. 赋值运算

通过临时关系变量赋值的方法来表示关系代数表达式会更方便,用 ← 来表示。

另外还有外连接运算、聚集运算(对应 SQL 中的 Group by 的操作)等。

推荐阅读更多精彩内容