算法 - 首页 - 微博

【ChatGPT作者John Schulman：我们成功的秘密武器】除了OpenAI，外界可能很少有人知道ChatGPT模型成功的真正原因，实际上，#OpenAI# 也会对ChatGPT拥有的巨大影响力感到不可思议。这种困惑和惊喜就像工程师们解bug时获得的意外成功：We don't know why, but it works.

一种普遍的看法是，#ChatGPT# 没有任何革命性技术，正如Meta 首席AI科学家Yann LeCun所说，“只是一些巧妙的技术组合而已”。当然，听到这话的围观群众不免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”，不过，从ChatGPT的缔造者们后续的表态来看，恐怕也不会否认他的“酸话”。

早在2022年1月，OpenAI发布了另一款GPT-3.5微调版本InstructGPT，这是ChatGPT的“兄弟模型”，如果用标准基准来评估它们的原始技术能力，两个模型之间并没有实质性不同。根据OpenAI科学家们的说法，ChatGPT用的微调方法稍有不同，并且添加了一些对话数据，这让ChatGPT更易上手和易用，由此产生了很大的正面影响。

新增的对话数据固然重要，不过，让ChatGPT更容易推断出用户的意图，产生质变的根本原因是已在InstructGPT使用的“人类反馈的强化学习（RLHF）”技术，OpenAI联合创始人、研究科学家John Schulman认为，#RLHF才是ChatGPT的秘密武器# （secret sauce）。

简单来说，强化学习是让研究者像训练狗一样训练AI智能体，并为

返回最新资讯列表