【机器学习中的数学】函数空间

数学的空间

数学中的空间概念是要有研究工作的对象和遵循的规则。其中,包含元素和结构。
如线性结构中,定义加法和数乘;拓扑结构中,要有距离、范数、开集三要素。

距离

范数是具有“长度”概念的函数。
距离、范数可以指向量的距离,我们可以定义以下几种向量的距离:

  • d1(x,y)=sqrt((x1-y1)^2 + ... + (xn-yn)^2)
  • d2(x,y) = max{|x1-y1|, ..., |xn-yn|}
  • d3(x,y) = |x1-y1|+ ...+ |xn-yn|

距离、范数也可以指曲线的距离,即函数f(x)到函数g(x)的距离:

  • d1(f,g) = ∫ (f(x)-g(x))^2 dx
  • d2(f,g) = max |f(x)-g(x)|
  • d3(f,g) = ∫ (f(x)-g(x))^k dx
    以上x都定义在[a,b]之间

接下来我们要去定义距离的抽象概念。
我们要知道,如果一个对象不是具体的,是抽象的,是泛指的,那么我们就抓最重要的属性来描述这个对象,而舍弃其他的属性。

距离的定义

设X是非空集合,任给一对这一集合的元素x、y,都给定一个实数,d(x,y)与它们对应,并且满足:
(1) 非负性:d(x,y)≥0 ; d(x,y)=0, then x=y
(2) 对称性:d(x,y)=d(y,x)
(3) 三角不等式:d(x,y) ≤ d(x,z)+d(z,y)
则称d(x,y)是两点之间的距离。

tips:
为什么曲线距离中可以用maximum来定义距离,而不能用minimum来定义距离。
因为如果两条曲线相交时,对|f(x)-g(x)|取最小,就等于0,那么按照距离的定义,那么f(x)=g(x),这显然违背了距离的定义。所以并不是随意的度量方式都可以作为一种距离的定义的。

范数

范数的定义

设||x||是R^n的范数,若满足:
(1)||x|| ≥ 0, for all x∈R^n; ||x||=0 is equal to x=0
(2)||αx||=|α|·||x||, for all α∈R, x∈R^n
(3)||x+y|| ≤ ||x||+||y||, for all x,y ∈R^n
这里范数可以简单看成到零点的距离,并且多了第(2)条

tips:
由范数可以定义距离:d(x,y)=||x-y||
但是由距离不一定可以定义范数,例如:||x||=d(0,x),但||αx||=d(0,αx)≠|α|·||x||
之所以有这样的区别,我们可以简单理解成,范数是带有限制条件的距离,是更加具体的距离,而距离比范数要少一些东西。

除了距离,我们还需要线性结构。
在线性空间中,向量定义了加法和数乘运算,它们还满足加法交换律、加法结合律、负元、零元;数乘的交换律、单位一、数乘与加法交换律。

赋予范数或距离的集合分别称为:赋范空间和度量空间;若在其上再加上线性结构称为线性赋范空间和线性度量空间。

内积空间

复返空间有向量的模长,即范数。但是还缺乏一个很重要的概念——两个向量的夹角,为克服这一缺陷,我们引入内积。
内积的定义:

设(x,y)∈R,且满足:
(1)对称性
(2)对第一变元的线性性
(3)正定性,大于等于零
则称(x,y)为内积。

  • 内积可导出范数,||x||^2 = (x,x),但是范数不能表示内积,因为内积比范数又多了东西。
  • 在线性空间上定义内积,其空间称为内积空间。
  • 内积可在空间中简历欧几里得集合学,例如交角、垂直和投影等,故习惯上称为欧几里得空间。
  • 1904年-1910年希尔伯特引入无穷实数组并定义内积,其空间称为内积空间,再加上完备性,称为希尔伯特空间(无穷维,而欧几里得空间是n维)。
  • 1922年巴拿赫提出赋范空间,其完备性的赋范空间称为巴拿赫空间。
    这里提到的完备性可以理解为,在该空间中的极限运算中,它取极限不能跑出去。比如在有理数集中不行,必须到实数集中求极限得到的结果依然在实数集中。

拓扑空间

欧几里得几何学需要内积,但连续的概念不需要内积,甚至不需要距离。
仔细考察连续的概念,其实他需要的是开集,即用开集可以定义连续。
原来的连续定义:

for all ε>0, exist δ>0, (|x-x_0|<δ) => (|f(x)-f(x_0)|<ε)

现在不在需要距离之后,我们来定义连续的概念:

记 x_0∈D belong to R,
x_0的邻域定义为O(x_0,δ)={x; |x-x_0|<δ}
f(x_0)的邻域定义为O(f(x_0),ε)={y; |y-f(x_0)|<ε}
那么可定义连续为
for all ε>0,exist δ>0, f(O(x_0,δ) ∩ D) belong to O(f(x_0),ε)
即把x_0的邻域用f函数映射之后还在f(x_0)的邻域里就称为连续。

拓扑的定义:

设X是任一集合τ belong to 2^X,若满足:
(1)τ内任意个集合的并仍属于τ
(2)τ内有限个集合的交仍属于τ
(3) X和空集属于τ
则称τ是X上的一个拓扑。
其中元素是X,规则是τ,称(X,τ)为拓扑空间;

总结

范数可以定义“强化”了的距离
内积是较距离和范数又更多的内涵
拓扑是“弱化”了的距离

有了拓扑就有了拓扑空间,有了距离就有了度量空间,有了范数就有了赋范空间,有了内积就有了内积空间(已有线性结构)。
如果将上述空间再加上线性结构就成为拓扑线性空间,线性度量空间,线性赋范空间,内积空间。
如果对于线性赋范空间又加上完备性,那就是巴拿赫空间;内积空间再加上完备性,那就是希尔伯特空间。
(完备性就是玩极限游戏不能玩出去~~)
数学中,函数空间是从集合X到集合Y的给定种类的函数的集合。它叫做空间是因为在很多应用中,它是拓扑空间或向量空间或这二者。

研究无穷维内积空间或者无穷维线性赋范空间中映射的数学分支叫泛函分析,又分为线性泛函分析和非线性泛函分析。
研究拓扑空间的数学分支叫拓扑学,又分为点集拓扑、代数拓扑和微分拓扑。

参考资料

上海交通大学公开课:数学之旅

转载请注明作者Jason Ding及其出处
Github博客主页(http://jasonding1354.github.io/)
GitCafe博客主页(http://jasonding1354.gitcafe.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页

推荐阅读更多精彩内容