***** - 首页 - 微博

借助DeepL翻译下GPT-4的博文:
![](http://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png)网页链接

GPT-4
我们已经创建了GPT-4,这是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟的律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的分数则在后10%左右。我们花了6个月的时间,利用我们的对抗性测试项目以及ChatGPT的经验,反复调整GPT-4,从而在事实性、可引导性和拒绝超出护栏方面取得了我们有史以来最好的结果(尽管远非完美)。

在过去的两年里,我们重建了整个深度学习堆栈,并与Azure一起,为我们的工作负荷从头开始共同设计了一台超级计算机。一年前,我们训练了GPT-3.5,作为该系统的第一次 "试运行"。我们发现并修复了一些错误,并改进了我们的理论基础。因此,我们的GPT-4训练运行(至少对我们来说是如此!)空前稳定,成为我们第一个训练性能能够提前准确预测的大型模型。随着我们继续专注于可靠的扩展,我们的目标是磨练我们的方法,以帮助我们越来越提前地预测和准备未来的能力--我们认为这对安全至关重要。

我们正在通过ChatGPT和API发布GPT-4的文本输入功能(有一个等待名单)。为了准备更广泛地提供图像输入功能,我们正在与一个合作伙伴紧密合作,以开始。我们也正在开源OpenAI Evals,这是我们自动评估人工智能模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步的改进。

Capabilities 能力

在闲聊中,GPT-3.5和GPT-4之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时,差异就会显现出来--GPT-4比GPT-3.5更可靠,更有创造性,能够处理更细微的指令。

为了了解这两种模型之间的差异,我们在各种基准上进行了测试,包括模拟最初为人类设计的考试。我们通过使用最新的公开测试(就奥数和AP自由回答问题而言)或购买2022-2023年版的练习考试来进行。我们没有为这些考试做专门的培训。考试中的少数问题是模型在训练中看到的,但我们认为结果是有代表性的--详情请见我们的技术报告。

我们还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4的性能大大超过了现有的大型语言模型,与大多数最先进的(SOTA)模型并驾齐驱,这些模型可能包括针对基准的制作或额外的训练协议。

许多现有的ML基准是用英语写的。为了初步了解其他语言的能力,我们使用Azure Translate(见附录)将MMLU基准--一套涵盖57个主题的14000个多选题--翻译成了各种语言。在测试的26种语言中的24种语言中,GPT-4的表现优于GPT-3.5和其他LLM(Chinchilla,PaLM)的英语表现,包括低资源语言,如拉脱维亚语、威尔士语和斯瓦希里语。

我们也一直在内部使用GPT-4,对支持、销售、内容审核和编程等功能有很大影响。我们也正在使用它来协助人类评估人工智能的产出,开始了我们调整战略的第二阶段。

GPT-4可以接受文本和图像的提示,这与纯文本设置平行,让用户指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像。在一系列的领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外,它还可以使用为纯文本语言模型开发的测试时间技术,包括少数几个镜头和思维链提示。图像输入仍然是一个研究预览,没有公开提供。

我们通过对一套狭窄的标准学术视觉基准进行评估来预览GPT-4的性能。然而,这些数字并不完全代表它的能力范围,因为我们正在不断发现该模型能够处理的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数字,以及对测试时间技术效果的彻底调查。

操纵性

我们一直在努力实现我们关于定义人工智能行为的帖子中概述的计划的各个方面,包括可引导性。与经典的ChatGPT个性的固定言语、语气和风格不同,开发者(以及很快ChatGPT用户)现在可以通过在 "系统 "消息中描述这些方向来规定他们的AI的风格和任务。系统消息允许API用户在一定范围内大幅定制他们的用户体验。我们将继续在这里进行改进(特别是知道系统消息是 "越狱 "当前模式的最简单方法,也就是说,对界限的遵守并不完美),但我们鼓励你尝试并让我们知道你的想法。

限制条件

尽管有这样的能力,GPT-4也有与早期GPT模型类似的局限性。最重要的是,它仍然不是完全可靠的(它对事实产生 "幻觉",并出现推理错误)。在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心,准确的协议(如人类审查,用额外的背景接地,或完全避免高风险的使用)与特定的使用案例的需求相匹配。

虽然仍然是一个真实的问题,但GPT-4相对于以前的模型(这些模型本身在每次迭代中都有改进),大大减少了幻觉。在我们的内部对抗性事实性评估中,GPT-4的得分比我们最新的GPT-3.5高40%。

我们在TruthfulQA等外部基准上取得了进展,该基准测试了模型从对抗性选择的不正确陈述中分离事实的能力。这些问题与在统计学上具有吸引力的事实错误的答案相搭配。

GPT-4基础模型在这一任务上只比GPT-3.5略胜一筹;然而,在经过RLHF后期训练后(应用我们在GPT-3.5上使用的相同过程),却有很大差距。检查下面的一些例子,GPT-4抵制选择普通的说法(你不能教一只老狗新的技巧),然而它仍然可能错过微妙的细节(猫王不是一个演员的儿子)。

该模型在其输出中可能会有各种偏见--我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。

GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎