人类学习和机器学习

人类学习

为什么人类可以识别出不同的物体？从大量识别对象中提取出特征是很重要的一步。因为没有特征，就无法识别。但有些特征并不具备共性，所以很多时候需要剔除那些冗余的特征。人类识别物体是通过多种感知器来实现的，形状，颜色，气味，触感，味道等等。所以即便不告诉一个婴儿什么是苹果，什么是梨子，它最终还是能通过各种感觉来综合判断出梨子和苹果的不一样。在这个过程中，婴儿的感知器官给苹果和梨子贴上了不同的标签。

人类的味蕾可以区分不同的味道，酸甜苦辣咸涩麻等等。不仅如此，对于同一类的味道，它还能细分出不同的层次。比如同样是甜的，梨子和苹果的甜不是一样的甜，它们有明显的区别。这个区别就像是色彩的浓淡，声调的高低一样是可以量化的。所以从味蕾这个感知器官来说，它就是多重感知器。浅层的感知器往往只感知最基本的特征，比如红颜色，甜的之类的标签。深层的感知器可以区分红色的渐变特征，甜味的特征。所以人类大脑作为处理器，它的作用就是要对这些分类信息进行处理。神经网络实际上是分析这些分类信息的一种高效的算法结构。这就是为什么在深度学习中使用大量的深度神经网络的原因。

在继续讨论人类学习之前，我们需要注意到一个事实：苹果也好，梨子也好，在一个婴儿所感知到的世界中，只占很小的比例。实际上这个比例低到可以忽略不记。那么是什么让婴儿能够学到这些知识的呢？实际上，是物体的特征。更具体的说，是具有细节的特征。这些包含细节的特征对于婴儿的感知器官是特殊的，有别于其他的。简单的特征，比如苹果是圆的，梨子是椭圆的，这种特征并不能很好的区分苹果和梨子。我们所感知的，并不是一些混乱无序的东西，它必须首先是特殊的。

机器学习

我们现在来看机器学习。在机器学习领域，往往需要处理的问题需要引入代价函数。这个代价函数就刻画拟合值和实际值之间的偏离。最终我们学习的目标往往是要让这个代价函数最小，因为这样就表示拟合的曲线接近实际值。这是一种代数拟合。不存在任何微分动力学，这种代数曲线拟合可以表达为
$F(x_{1},x_{2},\cdots,x_{N})\simeq G(x_{1},x_{2},\cdots,x_{N})=\sum_{k=0}^{M}c_{k}P_{k}(x_{1},x_{2},\cdots,x_{N})$
其中F 是待拟合的函数，而G 则是拟合的多项式函数, $P_{k}$ 则是一个多项式，其幂次为 k。 $c_{k}$ 则是幂次系数。这本质上是一个多项式拟合。如果对于多项式的形式没有任何约束，那么这个拟合即便能够对样本符合的很好，其泛化能力也必然很差。这是因为选取的“特征”本质上不能叫做特征。

现在，深度神经网络算法已经在大数据领域使用的非常普遍。但很多使用者并不理解深度神经网络算法的原理，在使用的过程中，往往采用不管什么特征数据都一股脑的喂给深度神经网络，期待它能给出一个好的结果。这种做法是违反科学精神的。一个再好的算法，如果再输入端输入的都是垃圾数据，你不能期待它最终制造出黄金。实际上，很多所谓的特征根本不是真正好的特征。

那么对于多项式拟合来说，什么样的多项式能够叫特征呢？对称多项式就是一种很特殊的东西。这是因为它内含了特殊的对称性。当然，反对称多项式也特殊。但数学上可以很简单证明，任何一个多项式，都可以分解为对称部分和反对称部分。所以，在选取高效的非线性特征时，理论上应遵循的原则是：尽量按照特征的对称多项式来展开。

遗憾的是，现有的算法研究并没有深入对待这个问题。现在主流神经网络领域仍然是通过调整层数和感知器的数目来盲目的碰运气。比如超参数的调整，Dropout 方法等等。但实际上，这种做法有时很有效的原因无非是因为恰好基本满足了学习对象的内在对称性。在代数上，多层神经网络具有基本的对称性，就是分立quiver对称性。

在数学物理领域，对称多项式是一个方兴未艾的领域。Schur, Hall-Littlewood, Jack, Macdonald 对称多项式在诸多领域显示了无比强大的应用。毫无疑问的是，数学物理的重要进展应当被反馈到机器学习领域。在对称多项式领域，quiver对称性是很容易就能实现的。实际上，如果将多层神经网络看作是一个解码器，那么它类似于机械式手动解码，功能类似于老式电视机的手动频道旋钮。机械限制导致了这种频道搜索不能很好的处理未知信号，因而泛化能力很差。就如同老式电视机没有办法收到新的频段的信号。而对称多项式则是全自动解码器，即便有新的信号，它也能很快自动解码。另一方面，现有的深度神经网络使用的节点和超参数由于没有多项式约束，导致它对信号的处理是失真模糊的，因而无法避免错误率的递增。但如果使用对称多项式约束，那么由于正交性天然得到满足，失真的可能性大幅降低。错误率事实上不会递增。

机器学习领域有一个很著名的没有免费午餐的定理，它说明了一个复杂的高级的深度学习算法和一个简单的深度学习算法在错误率上的平均表现是一样的。这其实令人泄气。这里有个盲区，在现有的这种深度学习框架下，这可能是正确的。但事实上，如果在一开始建立的深度学习框架就是类似于对称多项式这样的框架，那么它相对于现有的深度学习将是压倒性的胜利。当然，代价就是要使用非常艰深复杂的对称多项式理论。实际上，在当今最艰深的领域：弦理论中，对称多项式正是一种重要的研究工具。某种意义上，数学上的复杂性导致了没有免费午餐定理还成立。但突破这个局限是一劳永逸的，所以这个定理的打破其实已经不遥远了。