展开讲讲一些关于大语言模型的理解的问题在哪里。
这些评论通常归结为这句话:大语言模型「只不过是把语料中的统计相关性复现出来而已。」但这句话是错的,其错误程度就像是在 AlphaGo 出现的时候说「AlphaGo 只不过是在背诵它见过的棋谱而已」一样。
很多人对大语言模型(或者更一般地说,大神经网络)的理解还停留在两三年前。而过去两年里重要的两个研究方向(并不只有这两个,但它们对下面要说的事最关键)显示出它终于开始初步跳出贝叶斯的陷阱,展现出了一点通用智能的模样。这两者一是思维链条(chain of thought, CoT),二是自发性地结构涌现(英文文献里一般就直接简称为 emergence)。
如果你看过《思考快与慢》这本书,你可能知道传统的大神经网络是标准的快思考模式。输入一个样本,网络直接输出一个答案,没有推理过程,本质上是直觉。人们长期以来对神经网络的诟病也在于此:人之所以区别于动物,是因为人除了直觉之外还会慢思考,也就是逐步推理型的思考。长期以来人们认为神经网络无法实现这样的思考。
但 CoT 恰恰是一个试图复现慢思考模式的工程上的尝试:我也许不能直接教神经网络做推理,但我可以硬性规定它一步一步输出推理环节。打个比方,就像是你的中学老师告诉你「直接写出答案是不给分的,你必须写出过程」。逼着神经网络写出思考过程也许并不等于真的在慢思考,但没关系,既然它输出了整个思维链条的文字版本,那实质上的结果是一样的。(其实人类的学习和这差别也不大,「真正会思考」和「显得像是在思考」这两者的区别有时候只是哲学上的。Fake it till you make it.
一个典型的例子是 Amazon 最近的一篇论文 Multimodal Chain-of-Thought Reasoning in Language Models。你给 AI 的数据是一幅图片,上面画着饼干和薯条,然后问 AI:这两者的共同点在哪里?A:都是软的。B:都是咸的。
AI 并不被训练直接选择 B(这种训练是没有意义的,也无法推广)。AI 被训练的是输出下面这样一段文字:「看看这两样东西。对每个东西,判断它有哪些特性。薯条是咸的,饼干是咸的。软的东西你捏它的时候会变形。薯条是软的,但饼干不是。两个东西的共同特性是咸的。所以选 B。」
因为这是一大段文字,AI 并不会一次性说完。它可以每说一个词就「回过头去看一眼」图案(在比喻意义上),然后把图案的信息和自己已经
登录后可查看完整内容,参与讨论!
立即登录