从信息论说起(杂谈)

什么是信息?在信息科技书的第一章,信息论的香农从通信的角度给信息的解释为:用来消除不确定性的东西。在课堂上,会这么给学生解释这句话的意思(例子来自施老师):老师进入教室,你们可能会想,这个是老师吗?使我们的信息老师吗?今年几岁了?有没有结婚?有没有小孩?当老师做了自我介绍,你们脑子里的疑问也就一个个被消除了。书上的例子是关于旅游查询信息的例子。我上课的时候也只是强调信息和载体的区别,比如报纸、报纸上的文字、报纸上文字所传达的内容。

没有怎么深究过香农、信息论、通信方面的内容。直到KK老师推荐张汶老师的文章《以信息论的视角理解信息科技课程的核心概念》【1】,然后花了一点时间去研究香农的信息论。虽然是计算机出身,但是计算机专业从来都没有提到香农,也没有提到什么是信息。拜读了张老师的文章,知乎上的文章,没看懂啥意思。然后我询问了huan,问问有没有懂这方面知识的大神,没想到huan滔滔不绝地介绍起信息论的一些知识,我一知半解,有点概念了。突然意识到为啥计算机专业没有提到信息论,因为这个是通信的基础知识,终于明白当年计算机和通信为啥是一个辅导员了,从数理并到机电的时候,也是计算机和通信专业并过去了,原来是有那么点关系的。接着抽空去了上海图书馆,最坑爹的是,书名叫做信息论的书都在综合藏馆,我的借书卡在家里,所以纯讲信息论的书没法看,只能去中文图书馆。本着阿Q精神,读书千遍,其义自见的精神,把关于通信的书全部搬下来,只看关于信息、信息熵有关的内容,希望能看懂些什么。看着看着,发现天下文章一大“抄”,大部分内容都差不多,一些术语也渐渐不陌生了。回家把张老师的文章和网络上关于信息论的文章又重新看了一遍,终于明白了点什么,好像能够串起来了。

我们用克、千克、斤等单位来衡量重量,用厘米、分米、毫米等单位来衡量长度。什么是信息?大家都能理解,也经常使用,但是要给信息下个定义,确实很难。有没有衡量信息的单位?什么是信息量大?什么是信息量小?对于一些人来说,某某消息的信息量很大,同样的消息,对于某人来说,已经知道了,没啥信息量。

直到香农提出了一个数学公式,来定义信息,这个公式和概率有关,当概率大的时候,信息量小,当概率小的时候,信息量大。当时和Huan电话,他举了一个例子,也是人工智能课上危辉老师举的例子,当时危老师举这个例子的时候,我只觉得好玩,并没有意识到危老师在讲信息论的知识,囧。这个例子是这样的:狗咬人和人咬狗。狗咬人,发生的概率比较大,所以信息量比较小,但是人咬狗,不是狗肉,发生的概率比较小,大家会想这个人是不是得狂犬病了?为什么这个人会去咬狗?会有很多疑问,其中的信息量就比较大了。这个例子很形象的解释了香农关于信息的数学公式。

关于这个数学公式,有个很特别的名字,叫做信息熵,啥叫熵,就把我看晕了,好高大上的名字。然后查阅了一下资料,了解到,熵是来自物理概念中的热力学,百度百科上有个视频【2】是关于熵的,很形象:一杯清水,然后滴入墨水,最后清水和墨水混合在了一起。状态的变化:清水--》清水+墨水独立存在--》墨水开始慢慢延伸,把清水搅浑了,混乱的状态--》变成墨水色的水,稳定的状态。熵,和混乱程度有关。英文中熵是entropy,中文为什么翻译成熵,是胡刚复教授造的词,火取自热力学,商取自热温比中商的概念,然后组合成了这个中文词---熵,还是蛮有意思的。和信息论中的信息熵啥关系,从网上看到的说法,相传香农不知道要给这个公式取什么名字,叫信息量好呢?还是信息度好呢?后来选用了“熵”,因为很少人用,从概念上不容易混淆,而且熵本身有混乱的意思,和信息的不确定性也有类似性,所以选用了信息熵作为公式的名字。

说起这个公式,香农还是从哈特莱那里得到的启发(聪明的KK率先搜到的)。早在1928年,哈特莱就想到了,他首先提出信息定量化的初步设想,他将消息数的对数定义为信息量。若信源有m种消息,且每个消息是以相等可能产生的,则该信源的信息量可表示为I=log10 m。看着有点复杂,和KK一来一回的提问、思考后,我得出了这样的思考过程。首先解决M的问题:m种消息,我们可以理解为m种状态,如果有100种状态,我们用多少位十进制表示?2位十进制表示(00-99);如果101中状态,我们用多少位十进制表示?3位十进制表示(000-100);其次解决为啥以10为底:大概是当时十进制比较流行吧,可能1928年还没有实体的计算机,还没有二进制的概念吧(ENIAC计算机,1946);最后解决为啥用log的问题:比如,2位十进制可以表示多少种状态?10*10(10^2);3位十进制可以表示多少种状态?10*10*10(10^3);从数学角度上,要求出公式100=10^x中x的值,只能用log了吧。

1948年,香农对其进行了更深入的研究,给出了信息的统计描述:

香农用信息熵来定量衡量信息的大小,而所有输入电脑的任何信息最终都要转化为二进制,所以在信息熵公式中,当对数底为2时,信息量的单位为比特,比特也就是我们现在经常用来衡量信息的最小单位。当对数底为10时,叫做哈特莱,估计也是纪念哈特莱的贡献吧。香农的公式和哈特莱的公式区别在于一个是和概率有关,一个是和状态、种类有关。当时去问郑SJ老师关于log的数学问题,她也表示很惊讶,因为在高中数学中,log属于一章,概率属于一章,没想到这两样东西可以放在一起,没想到这个公式还和信息、通信有关。对于计算机出身的我来说,为啥概率和不确定性有关,对于数学出身的郑老师来说,概率就是和不确定性相关的。哈哈,再次说明,突破都在跨界的领域。

香农的信息熵是和概率有关系的,也就是说概率越小,信息量越大,概率越大,信息量越小。如果按这个来理解,书上的例子就有点晕了,我当时的理解是,如果按照生活的角度是可以理解的,你看得资料越多,信息量就越大。但是按照香农概率的理解,你看得资料越多,知道的越多,确定的东西就越多,概率越大,信息量不是反而越小了么。越想越矛盾。经过一番和郑老师的探讨,大概理解如下,是个动态的过程:比如,我刚开始不确定要去哪里旅游,所以我网上搜资料,有搜美国、日本、英国、西班牙等地区的旅游信息,信息量就很大了(不确定、概率小、信息量大),当搜集到一定程度,我确定要去哪里旅游了,比如美国,目标锁定后,我只搜和美国相关的内容,信息量就缩小了(确定、概率高,信息量小)。以上理解纯属猜测,不一定对。毕竟香农是从通信的语境解释的,我们是从生活的语境中解释的,有偏差。

再回到香农的信息熵,从这个公式开始,信息有了度量单位---比特,就是我们现在经常用来衡量信息的最小单位。bit,在英文里是 binary unit的缩写,表示二进制位,在中文里叫做比特。

香农的信息熵的概念研究完了,来研究香农的三个编码定理。第一定理关于无失真信源编码,第三定理关于限失真信源编码,第二定理关于信道编码。什么鬼,连名字都看不懂。后来看到这张图,就明白了。

通信系统模型

通信系统最核心的一幅图,信源--信道---信宿。通信要解决的是什么问题?传输信息、消息对吧,怎么能够更快更好准确的传输信息呢?在信源部分,消息尽量不失真,也就是失真率小,但是尽量少用符号(我脑子里跳出来电报,一个字一个钱)。信道部分,信道上有干扰,所以要有一定的抗干扰能力,传输速度要快。所以只能在信源编码和信道编码上下功夫了。信源编码部分,减少冗余,提高编码效率。然后引出了我们熟悉的有损压缩和无损压缩。信道编码部分,提高纠错能力,多一些冗余,比如在马路上运输玻璃杯,为了防止玻璃杯破掉,在玻璃杯之间加一些海绵什么的缓冲物。由信道编码,引伸出了现在的密码学。

在回过头去看那高大上的三个定理,简单理解为,信源编码和信道编码,信源编码分为无损(不失真)和有损(失真)。

至此,可以大致理解课本中的编排了,什么是信息---二进制---编码(文字图像声音)---压缩(有损、无损)。以前只知道按照课本的顺序教,着重在“技术、计算”上,不知道背后的原理和历史发展。

经过这段时间对信息论的初步研究,觉得古人好伟大,怎么能够想到这些公式、这些模型的,没有他们的付出,也没有现在的通信和计算机了。以前听老师说,计算机是建立在物理和数学基础上的一门学科,在研究信息论的时候,书上满满的数学公式,深深地感受到了这句话,也深深地觉得自己数学功底的薄弱,连log的计算都还给老师了, 囧。从通信的角度出发,理解计算机中经常出现的编码、压缩、纠错码,还是很有意思的。

写不出高大上的期刊文章,写这篇杂谈,记录下自己这段时间的思考和研究过程,感谢KK、郑老师、huan的耐心指点。


参考资料:

【1】张汶,【学科探索】以信息论的视角理解信息科技课程的核心概念(节选),上海教研订阅号,http://mp.weixin.qq.com/s?src=11×tamp=1516715699&ver=654&signature=fbGwJll5HqT9QhTSk7W75v5m*hzar51yfH9VIGkk8NgiXXle5M16coSS0YeMX-d98pG2NN7x7Rol7zM5xjicP1PuhM72msNpzksNxaZkELVw87lVsdgBGm-ZeF9tNZfL&new=1

【2】熵,百度百科,https://baike.baidu.com/item/%E7%86%B5/101181?fr=aladdin

还有很多书和网上资料,就不一一列举了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容

  • 第1章介绍 1. 为什么要进行视频压缩? 未经压缩的数字视频的数据量巨大 存储困难 一张DVD只能存储几秒钟的未压...
    ISunshine阅读 693评论 0 11
  • 昨晚刚把吴军的这本书书看完,好多内容都在他之前的《浪潮之巅》真本书中提到过了,最精华的其实是最后的控制论、系统论和...
    英天阅读 741评论 0 2
  • 引用 所谓的压缩就是在不损失信息量的前提下,用新的描述方式表示原有的数据,而这种方式占用的空间更少。 先来个小例子...
    2young2simple阅读 2,920评论 0 1
  • 本文是《硅谷之谜》的读书笔记之一,也是我认为全书最精彩的一部分。 1、维纳和控制论 控制论突破了牛顿的绝对时间观。...
    elleyes阅读 2,052评论 0 3
  • 〇、目的 机器学习的很多算法中,越来越多的利用信息论的一些观点和结论。本文更多的是从机器学习的角度对信息论做一个简...
    Herbert002阅读 4,488评论 0 3