轻松客观认识大模型：二

这是我关于《轻松客观认识大模型系列》第二篇

五、什么是深度学习

深度学习可以在电路中加入电阻和门以外的元素，例如在电路的中间加入数学计算，将多个值相加或相乘后再向前传递电信号。但深度学习仍然使用相同的基本增量技术来猜测参数。

六、什么是语言模型

我们之前举的汽车例子中，我们试图让神经网络的行为与我们的数据一致。我们在询问是否可以创建一个电路，以类似于司机在相似情况下操作汽车的方式来操纵汽车。我们可以用同样的方式对待语言。我们可以查看人类编写的文本，思考是否可以创建一个电路，产生一个看起来很像人类倾向于产生的单词序列。现在，当我们看到单词时，我们的传感器就会触发，我们的输出机制也是单词。

我们在尝试做什么？我们正在尝试创建一个电路，给定一堆输入单词，猜测一个输出单词。例如：

“Once upon a __”

image.png

如果您不熟悉这个符号，不用担心。这只是数学术语，意味着给定“once”，“upon”和“a”这些单词，单词“time”的概率（P）。我们希望一个好的语言模型比单词“armadillo”产生更高的概率。

我们可以将其推广到：

image.png

这句话的意思是计算在给定前面所有单词（从第一个单词到第n-1个单词）的情况下，序列中第n个单词出现的概率。但让我们回到一点。想想那种有敲打臂的老式打字机。

image.png

除了不是每个字母都有一个不同的敲击臂之外，我们为每个单词配备一个敲击器。如果英语有50,000个单词，那么这是一个庞大的打字机！

不同于汽车的网络，想象一个类似的网络，除了我们电路的顶部有50,000个输出连接到敲击器臂，每个单词对应一个敲击器。相应地，我们将有50,000个传感器，每个传感器检测不同输入单词的存在。因此，最终我们所做的是选择一个电信号最强的敲击臂，这就是填空的单词。

现在，如果我想要制作一个简单的电路，以输入一个单词并产生一个单词输出，我必须制作一个具有50,000个传感器和50,000个输出的电路（每个单词一个）。我只需将每个传感器连接到每个敲击臂，总计需要 50,000 x 50,000 = 25亿根导线。

[图片上传失败...(image-7e5dd1-1684029919385)]

这真是一个庞大的网络工程！

更糟糕的是，如果我想做“Once upon a ___”这个例子，我需要感应到三个输入位置的每个单词。我需要 50,000 x 3 = 150,000 个传感器。连接到 50,000 个打字臂，就需要 150,000 x 50,000 = 7.5 十亿个电线。截至2023年，大多数大型语言模型可以输入4,000个单词，最大的可以输入32,000个单词。我的眼睛都要花了。

[图片上传失败...(image-da809e-1684029919385)]

我们需要一些技巧来解决这个问题。我们将逐步进行。

6.1 编码器

我们要做的第一件事是将电路分为两个电路，一个称为编码器，另一个称为解码器。我们的一个洞见是，许多单词的意思大致相同。考虑以下短语：

The king sat on the ___
The queen sat on the ___
The princess sat on the ___
The regent sat on the ___

实际上，很多单词的意思是差不多的。例如，“国王”，“女王”和“皇帝”都有关于皇室或权力的意思。因此，我们可以使用一个中间的东西（比如“皇权”）来表示这些单词所代表的权力的概念。这样，我们只需要考虑哪些单词的意思是差不多的，然后决定给这个中间的东西（“皇权”）多少电信号能量。这就相当于把所有的“皇权”相关的单词都归到同一个类别里。这个过程就是编码。

因此，我们要做的是建立一个电路，它将50,000个词的传感器映射到一些更小的输出集中，例如256个而不是50,000个。而且，我们不仅能够触发一个打字臂，而且能够同时触发一堆打字臂。每个可能的打字臂组合都可以表示不同的概念（如“皇室”或“有盔甲的哺乳动物”）。这256个输出将使我们能够表示2²⁵⁶ = 1.15 x 10⁷⁸个概念。实际上，还有更多的可能性，因为就像汽车示例中我们可以将刹车部分按下，每个256个输出不仅可以是1.0或0.0，还可以是它们之间的任何数字。因此，也许更好的比喻是所有256个打字臂都被按下，但每个打字臂按下的力度不同。

好的...以前每个单词需要一个50,000个传感器之一触发。现在，我们已经将一个触发的传感器和49,999个关闭的传感器缩减到256个数字。因此，“king”可能是[0.1，0.0，0.9，...，0.4]，“queen”可能是[0.1，0.1，0.9，...，0.4]，它们几乎相同。我将这些数字列表称为编码（也称为隐藏状态，出于历史原因，但我不想解释这一点，因此我们将坚持使用编码）。我们称将50,000个传感器压缩为256个输出的电路为编码器。它看起来像这样：

[图片上传失败...(image-b86d1c-1684029919385)]

6.2 解码器

但是编码器并不能告诉我们下一个单词应该是什么。因此，我们将编码器与解码器网络配对。解码器是另一个电路，它接受编码所需的256个数字，并激活原始的50,000个撞击臂之一，以产生下一个单词。然后，我们将选择输出电流最高的单词。下面是解码器的示意图：

[图片上传失败...(image-ccec0f-1684029919385)]

6.3 编码器和解码器一起使用

这是编码器和解码器一起工作形成的一个大型神经网络：

image.png

顺便提一句，对于单词输入到单词输出的编码，只需要 (50,000 x 256) x 2 = 25,600万个参数。看起来效果很不错。

这个例子是针对一个单词输入和一个单词输出的情况，如果我们想读取n个单词，那么输入就是50,000 x n，编码输出就是256 x n。

但是为什么会起作用呢？通过强制使50,000个单词适合一小组数字，我们迫使网络做出妥协并将可能触发相同输出猜测的单词组合在一起。这很像文件压缩。当您压缩文本文档时，会得到一个不可读的较小文档。但是您可以解压文档并恢复原始可读文本。这是因为压缩程序使用简写符号替换某些单词模式。然后在解压缩时，它知道该用哪个文本来替换简写符号。我们的编码器和解码器电路学习了一种电阻器和门的配置，可以对单词进行压缩和解压缩。

6.4 自我监督

我们怎么知道每个单词的编码最好的配置是什么？换句话说，我们怎么知道“king”和“queen”的编码应该相似而不是与“armadillo”相似呢？

想象一下，有一个编码器-解码器网络，应该输入一个单词（50,000个传感器）并产生完全相同的单词作为输出。这个做法不是很好，但对于接下来要讲的内容非常有教育意义。

[图片上传失败...(image-6d8cd0-1684029919385)]

输入单词“king”，一个传感器会发送电信号通过编码器，部分激活256个编码中的值。如果编码正确，解码器就会将最高电信号发送给相同的单词“king”。很简单吧？但不要这么快下结论。我同样可能会看到拥有最高激活能量的是“armadillo”这个词的撞击臂。假设“king”的撞击臂得到0.051的电信号，而“armadillo”的撞击臂得到0.23的电信号。实际上，我甚至不关心“armadillo”的值是多少。我只需要看“king”的输出能量，就知道它不是1.0。1.0和0.051之间的差异是误差（也称为损失），我可以使用反向传播对解码器和编码器进行一些改变，以便在下次看到单词“king”时生成略微不同的编码。

我们对所有的单词都这样做。编码器必须做出妥协，因为 256 远远小于 50,000。也就是说，有些单词在中间的激活能量组合上将不得不使用相同的编码。因此，当有选择的时候，编码器会希望“king”和“queen”的编码几乎相同，而“armadillo”的编码则非常不同。这将使解码器更容易通过只查看 256 个编码值来猜测单词。如果解码器看到了一组特定的 256 个值，并猜测“king”的概率是 0.43，而“queen”的概率是 0.42，只要“king”和“queen”获得了最高的电信号，而其他 49,998 个触发器的数字都比它们小，我们就会满意。换句话说，如果神经网络在“king”和“queen”之间感到困惑，我们可能会更容忍，而如果网络在“king”和“armadillo”之间感到困惑，我们就不能容忍了。

我们说神经网络是自我监督的，因为与汽车示例不同，我们不需要收集单独的数据来测试输出。我们只需将输出与输入进行比较，而不需要单独为输入和输出收集数据。

6.5 掩码语言模型

如果上面的思想实验看起来有些简单，那是因为它是构建掩码语言模型的基石。掩码语言模型的想法是输入一系列单词并生成一系列单词，其中输入和输出中的一个单词被遮挡掉了。

The [MASK] sat on the throne.

这个网络要猜测所有的单词，但是猜测未被覆盖的单词很容易。我们实际上只关心网络对遮挡单词的猜测。也就是说，对于输出中的每个单词，我们都有50,000个打击臂。我们只看覆盖单词的这些打击臂。

image.png

我们可以移动掩码并让网络在不同位置猜测不同的单词。

一种特殊类型的掩码语言模型仅在末尾有掩码。这被称为生成模型，因为它要猜测的掩码始终是序列中的下一个单词，这相当于生成下一个单词，就好像下一个单词不存在一样。就像这样：

The [MASK]
The queen [MASK]
The queen sat [MASK]
The queen sat on [MASK]
The queen sat on the [MASK]

我们也称之为自回归模型。回归这个词听起来不太好，但回归只是试图理解事物之间的关系，比如输入的单词和应该输出的单词之间的关系。Auto意味着“自己”。自回归模型是自我预测的。它预测一个单词，然后使用这个单词来预测下一个单词，以此类推。这对后面的一些有趣的推论有一定的影响，我们稍后会回到这个问题。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,026评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,655评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,726评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,204评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,558评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,731评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,944评论 2赞 314
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,698评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,438评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,633评论 2赞 247
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,125评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,444评论 3赞 255
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,137评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,103评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,888评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,772评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,669评论 2赞 271

轻松客观认识大模型：二

五、什么是深度学习

六、什么是语言模型

6.1 编码器

6.2 解码器

6.3 编码器和解码器一起使用

6.4 自我监督

6.5 掩码语言模型

推荐阅读更多精彩内容