阅读了一下 GPT-4 Technical Report,个人觉得报告其实有许多值得注意的细节:
-
大量的评估都是内部的测试数据,并且没有架构,技术,算法等等方面的任何介绍
-
有不少宣传的矛盾之处,比如介绍对于同样的律师考试测试,GPT3的成绩只能排名在最后10%,而GPT-4却在前10%,如果记得之前的媒体介绍,ChatGPT可是通过律师考试的
-
即使在内部测试中,数据也有多处不一致,比如在写作成绩上,GPT-4 比前几个版本都有大幅提升,但是在AP测试中其实并没有进步 (图1,图2)
-
对其局限的阐述上,先是介绍了 GPT-4 依然不太可靠,存在混淆事实等问题,并且建议不要使用在 人工审查 ,高损益,以及精确协议 方面,但接着又说比GPT3提升了19%,已经达到了人类的专业和学术水平
(图3,图4)
-
一方面说自己的测试没有做预训练,但另一方面又介绍 fine tuning 了许多 prompt...(图5,图6)
不过, openai 的营销水平非常赞,做的图表非常漂亮,应该会提高价格了,比 GPT-3.5效果好这么多(图7,图8),肯定是值得的
最后,非常有价值的一点应该是报告中团队介绍那几页,可能会是以后热门职业方向,大家可以冲一下
- 人工智能预训练师 Pretraining
- 数据准备师 Data & Dataset
- 训练保姆 Training run babysitting
- 情景分析师 Long context research
- 强化学习师 Reinforcement Learning & Alignment
- 算法模型安全师 Model safety & Refusal
- 现实世界用例评估师 Real world use case eval
- 数据和模型污染调查师 Contamination investigation
- 能力评估师 Capability Eval
- 新奇能力发现师 Novel capability discovery
- 安全与政策评估师 Safety and.policy eval
- 对抗测试师 Adversarial tester