移动-BitScan - 首页

展开讲讲一些关于大语言模型的理解的问题在哪里。

这些评论通常归结为这句话：大语言模型「只不过是把语料中的统计相关性复现出来而已。」但这句话是错的，其错误程度就像是在 AlphaGo 出现的时候说「AlphaGo 只不过是在背诵它见过的棋谱而已」一样。

很多人对大语言模型（或者更一般地说，大神经网络）的理解还停留在两三年前。而过去两年里重要的两个研究方向（并不只有这两个，但它们对下面要说的事最关键）显示出它终于开始初步跳出贝叶斯的陷阱，展现出了一点通用智能的模样。这两者一是思维链条（chain of thought, CoT），二是自发性地结构涌现（英文文献里一般就直接简称为 emergence）。

如果你看过《思考快与慢》这本书，你可能知道传统的大神经网络是标准的快思考模式。输入一个样本，网络直接输出一个答案，没有推理过程，本质上是直觉。人们长期以来对神经网络的诟病也在于此：人之所以区别于动物，是因为人除了直觉之外还会慢思考，也就是逐步推理型的思考。长期以来人们认为神经网络无法实现这样的思考。

但 CoT 恰恰是一个试图复现慢思考模式的工程上的尝试：我也许不能直接教神经网络做推理，但我可以硬性规定它一步一步输出推理环节。打个比方，就像是你的中学老师告诉你「直接写出答案是不给分的，你必须写出过程」。逼着神经网络写出思考过程也许并不等于真的在慢思考，但没关系，既然它输出了整个思维链条的文字版本，那实质上的结果是一样的。（其实人类的学习和这差别也不大，「真正会思考」和「显得像是在思考」这两者的区别有时候只是哲学上的。Fake it till you make it.

一个典型的例子是 Amazon 最近的一篇论文 Multimodal Chain-of-Thought Reasoning in Language Models。你给 AI 的数据是一幅图片，上面画着饼干和薯条，然后问 AI：这两者的共同点在哪里？A：都是软的。B：都是咸的。

AI 并不被训练直接选择 B（这种训练是没有意义的，也无法推广）。AI 被训练的是输出下面这样一段文字：「看看这两样东西。对每个东西，判断它有哪些特性。薯条是咸的，饼干是咸的。软的东西你捏它的时候会变形。薯条是软的，但饼干不是。两个东西的共同特性是咸的。所以选 B。」

因为这是一大段文字，AI 并不会一次性说完。它可以每说一个词就「回过头去看一眼」图案（在比喻意义上），然后把图案的信息和自己已经

移动-BitScan - 首页 - 微博

相关工具