【ChatGPT作者John Schulman:我们成功的秘密武器】除了OpenAI,外界可能很少有人知道ChatGPT模型成功的真正原因,实际上,#OpenAI# 也会对ChatGPT拥有的巨大影响力感到不可思议。这种困惑和惊喜就像工程师们解bug时获得的意外成功:We don't know why, but it works.
一种普遍的看法是,#ChatGPT# 没有任何革命性技术,正如Meta 首席AI科学家Yann LeCun所说,“只是一些巧妙的技术组合而已”。当然,听到这话的围观群众不免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”,不过,从ChatGPT的缔造者们后续的表态来看,恐怕也不会否认他的“酸话”。
早在2022年1月,OpenAI发布了另一款GPT-3.5微调版本InstructGPT,这是ChatGPT的“兄弟模型”,如果用标准基准来评估它们的原始技术能力,两个模型之间并没有实质性不同。根据OpenAI科学家们的说法,ChatGPT用的微调方法稍有不同,并且添加了一些对话数据,这让ChatGPT更易上手和易用,由此产生了很大的正面影响。
新增的对话数据固然重要,不过,让ChatGPT更容易推断出用户的意图,产生质变的根本原因是已在InstructGPT使用的“人类反馈的强化学习(RLHF)”技术,OpenAI联合创始人、研究科学家John Schulman认为,#RLHF才是ChatGPT的秘密武器# (secret sauce)。
简单来说,强化学习是让研究者像训练狗一样训练AI智能体,并为
登录后可查看完整内容,参与讨论!
立即登录