算法 - 首页 - 微博


【ChatGPT作者John Schulman:我们成功的秘密武器】除了OpenAI,外界可能很少有人知道ChatGPT模型成功的真正原因,实际上,#OpenAI# 也会对ChatGPT拥有的巨大影响力感到不可思议。这种困惑和惊喜就像工程师们解bug时获得的意外成功:We don't know why, but it works.

一种普遍的看法是,#ChatGPT# 没有任何革命性技术,正如Meta 首席AI科学家Yann LeCun所说,“只是一些巧妙的技术组合而已”。当然,听到这话的围观群众不免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”,不过,从ChatGPT的缔造者们后续的表态来看,恐怕也不会否认他的“酸话”。

早在2022年1月,OpenAI发布了另一款GPT-3.5微调版本InstructGPT,这是ChatGPT的“兄弟模型”,如果用标准基准来评估它们的原始技术能力,两个模型之间并没有实质性不同。根据OpenAI科学家们的说法,ChatGPT用的微调方法稍有不同,并且添加了一些对话数据,这让ChatGPT更易上手和易用,由此产生了很大的正面影响。

新增的对话数据固然重要,不过,让ChatGPT更容易推断出用户的意图,产生质变的根本原因是已在InstructGPT使用的“人类反馈的强化学习(RLHF)”技术,OpenAI联合创始人、研究科学家John Schulman认为,#RLHF才是ChatGPT的秘密武器# (secret sauce)。

简单来说,强化学习是让研究者像训练狗一样训练AI智能体,并为其做出的正确响应提供奖励,而RLHF的基本思路是,教会大型语言模型学习人类用户真正喜欢的回答偏好来进一步调整模型的响应。

RLHF技术背后的其中一个作者正是John Schulman,很多人不知道的是,他也是ChatGPT项目的主要负责人。

作为强化学习大牛,John在这一领域作出过许多重大贡献,例如发明了TRPO算法(信赖域策略优化,Trust Region Policy Optimization)、GAE(广义优势估计,Generalized Advantage Estimation)以及TRPO的后代近端策略优化( Proximal Policy Optimization),也称PPO算法。值得一提的是,其博士导师是强化学习领域的开拓者Pieter Abbeel,并且也在OpenAI创立初期工作过一段时间。

在ChatGPT发布前一个月,John Schulman在Robin Ranjit Singh Chauhan主持的TalkRL播客节目中,详细介绍了RLHF想法的产生源头,InstructGPT以WebGPT的主要思想,并阐述了AI对齐以及对AGI实现的看法。从中,我们也可以看到ChatGPT技术演进的脉络和不曾在论文中被描述的细节,以及OpenAI团队的下一步研究方向。![](https://h5.sinaimg.cn/upload/100/959/2020/05/09/timeline_card_small_super_default.png)ChatGPT超话

发布了头条文章:《ChatGPT作者John Schulman:我们成功的秘密武器》

https://weibo.com/mygroups?gid=201011110008380742