Oct.10 《信息简史》3-4:香农的信息论4

文/杜豆豆



理查德 • 道金斯

(接上篇)

11

爱因斯坦说,原子有随机性。香农说,信息有随机性。

随机性到底指什么?

有位经济学家用对立面,给了随机性一个定义:任何事先知道的、由某种特定原因决定的或根据某种计划实施的,都不是随机的。这又扯出了另一个概念:或然性。庞加莱有句名言说:“或然性不过是我们的无知的一种量度。”因为没掌握其中规律,只能稀里糊涂。但随机性不同,它可能是事物的本质。

比如,3.1415926......,你可以认为它是随机的,但它也是特殊的,是圆周率对吧?

什么样的数才算是真正的随机数?

这个问题,咱们计算机界的先驱,冯 • 诺依曼,曾说过这么一句话:“ 任何考虑用算术方法来生成随机数的人都犯下了僭越之罪。因为......不存在一个随机数这样的东西——有的只是生成随机数的方法,而一种严格的算术方法显然不属于其中之一。”

对数来说,不可避免会存在一些规律性。那么,算法下出来的,也只能是伪随机数。

抛硬币是随机的吗?但按牛顿运动定律和概率论,它又是有规律,可以算出来的。

随机性,或许可以理解为一种秩序的缺失。

给你个数,比如说01010101,10000100。这是我随机写的,但放在特定的场合,它可能是一段密码。如果给香农看,他或许会说,前一个比后一个的信息量大,为什么?因为前一个有冗余,有重复规律,是可预测的。

这样说来,随机程度如何与含有多少信息其实是一回事。信息的本质就是随机性。

凡是可计算的,能被一个可定义的计算机程序生成的,都不是随机的。可计算性是随机性的一种度量。

熵是信息的无序程度,是可以用算法来表示的。香农说信息是熵。科学家们每天在做的,就是从这些无序的信息里找出秩序,形成理论,解释已知,预测未知。

12

那该如何描述信息的度量呢?

一位苏联数学家给出了三种途径:基于组合、基于概率、基于算法。前两种其实香农已经提出过,他的创意在第三种。比如,莎士比亚全集的信息量有多大?你用组合、概率都不好使。用算法,你就可以根据对象的复杂度,也就是生成一个对象所需要的最短的计算机程序的长度,来进行度量。

研究到这里,你就会发现,信息、随机性和复杂度这三者本质上是等价的。

那到底没有意义的数字存在吗?

数学家们就是这么执著。他们发现,有意思的数的列表终究会在某处终结,一定存在某个没有意义的数。但这会带来悖论:因为它可以 被称为“最小的没意思的数”。蔡廷选用计算机程序语言来研究算法信息论时,就发现了类似的悖论。

蔡廷一直没有放弃对绝对确定性的研究,尽管他面对的现实,始终都是不完全性、不可计算性甚至算法随机性。在量子物理学以及混沌理论中,科学家们也发现了宇宙的不确定性,以致于爱因斯坦不无担忧地说这是“上帝在掷骰子”。

如果复杂的信息能被最大化压缩,就会让信息的传递更为经济有效。这也是香农研究数据压缩理论的直接目的。

依托编码算法,很多设备可以实现对数的压缩。比如书中提到了香农-法诺编码,哈夫曼编码算法。

一个俄罗斯学生,在香农信息论的影响下,开始研究“信息装载”、“归纳推理”的问题。其中的核心就是:“计算机也能从经验中学习吗?”

结论是肯定的。计算机使用归纳推理,就可以从无规律的信息流中识别出规律。某种意义上看,科学规律就像一种数据压缩,理论物理学家就是编码算法。

一条讯息就是一种算法,接收方则是一部机器,所以,在信息传递中,无需考虑任何意义,不管你是美妙的音乐还是枯燥的数字,只要考虑某个算法含有多少信息就好了。

最终,不同科学家的研究得出了同一个答案:最短程序的长度跟复杂性有关。复杂性越高,随机性也就越高,信息量越大,完全随机序列是无法压缩的。这可以称得上是香农信息论的发展巅峰了。

但是,它并不完美。因为,信息量和信息价值还是两码事,比如在艺术领域,我们就能举出明显的相背离例子。

由此,另一个概念出现了:逻辑深度。完全随机、不可预测,或者单纯重复、规律性特强,这两种极端状态都属于没有逻辑深度。相应的,具有一定难度、需要耗费计算力的,才算有逻辑深度。

13

理查德• 费曼曾说:“没有人真正理解量子力学。”

量子力学的历史并不长,但是争论却喧嚣的很,以致于量子理论学家克里斯托弗 •  福克斯干脆跑去研究物理学原理了。而且,他认为,这样的原理就在量子信息论里。量子力学是围绕信息展开的,因为信息就是量子化的比特。

你可能听说过,费曼的老师,著名的核裂变先驱惠勒有个名言,“黑洞无毛”。意思是,黑洞外面能够观察到的只有黑洞的质量,其他的信息,即便是个“毛”,都观察不到。惠勒还提出了另外一个脍炙人口的流行语:“万物源自比特。”在他眼中,信息第一性,物质第二性。世界的本原是信息。

黑洞来自爱因斯坦的广义相对论斯蒂芬• 霍金是黑洞研究方面的一个重要人物。霍金提出了霍金辐射,说黑洞在向外辐射粒子,黑洞会慢慢蒸发,最后消失。很多人反对霍金,因为信息是不灭的,如果消失了,量子力学就不存在了。

甚至1997年时加州理工学院的约翰• 普雷斯基尔教授还和霍金打赌,赌注是一套百科全书,说信息一定会以某种方式逃出黑洞。结果,霍金到2004年的时候,承认他输了。他新的研究结论是,黑洞并不全黑,信息是守恒的、始终存在。

查尔斯 • 本内特则是沿着另一条不同的路线涉足量子信息论的。他通过对“计算的热力学”研究,认为计算是个心理过程,是会消耗热量,同时也产生了熵,发生了熵增加。冯 • 诺依曼也做过估算,证明信息传输会耗热量。

但物理学家罗尔弗 • 兰道尔出了一个著名的论文《信息是物理的》,推翻了这一结论。兰道尔认为,大多数的逻辑操作并不增加熵,只要信息变化过程可逆,熵就没有改变,只有不可逆的操作才会增加熵,比如信息的擦除。信息总是与物理载体联系的,必须遵循物理定律。

后来,本内特制造了一个“玛莎阿姨”的设备,用来演示信息处理任务如何通过量子系统来完成。在这之后不久,量子纠错、量子隐形传态以及量子纠缠、量子计算机等设想随之出现。

量子纠缠,说的是两个粒子处在纠缠态,一个粒子表现出一种状态,另一个粒子会马上表现出同样一种状态,这个状态是不可预测 的。如果用传统信道,信息传递的过程中可能会被截获。如果用量子纠缠态,就可以解决这个问题。

而在量子计算机中,量子比特是相互纠缠的,多个量子比特工作,威力会呈指数增加,计算力就会变得超强,同时,安全性也会超高。

14

量子计算机的探索现在还在进行。可惜的是,香农晚年深受病魔困扰,2001年已经去世了。

做为信息时代开创在者之一,香农虽然没有能亲眼见证21世纪的蓬勃发展的信息科学,但他的英名却永远和信息一起,成为不朽的历史。

万物源自比特。

信息时代的洪流喷涌而出,我们人类该如何应对这一挑战呢?

下回,我们接着讲第三部分:洪流。

(未完待续)

原创不易,转载请注明出处。如果您觉的文章有用,别忘了在文末点赞哦。图片来自网络,如有侵权,请联络删除。谢谢!

倾一生之力,读经典好书,写有厚度的文字,过有深度的人生。我是杜豆豆,感谢您的关注。

作者简介:杜豆豆,IT从业20余年,曾先后研修英语、计算机、美学和心理学专业。早年创过业,后就职多家全球知名IT外企,现工作于某研究院。书痴一枚,闲时码码字。兼任多家平台签约作者,简书会员合伙人,万卷好书工作室、万卷好书读书会创立人。

推荐阅读更多精彩内容