***** - 首页 - 微博


阅读了一下 GPT-4 Technical Report,个人觉得报告其实有许多值得注意的细节:

  1. 大量的评估都是内部的测试数据,并且没有架构,技术,算法等等方面的任何介绍\[笑cry\]

  2. 有不少宣传的矛盾之处,比如介绍对于同样的律师考试测试,GPT3的成绩只能排名在最后10%,而GPT-4却在前10%,如果记得之前的媒体介绍,ChatGPT可是通过律师考试的

  3. 即使在内部测试中,数据也有多处不一致,比如在写作成绩上,GPT-4 比前几个版本都有大幅提升,但是在AP测试中其实并没有进步 (图1,图2)

  4. 对其局限的阐述上,先是介绍了 GPT-4 依然不太可靠,存在混淆事实等问题,并且建议不要使用在 人工审查 ,高损益,以及精确协议 方面,但接着又说比GPT3提升了19%,已经达到了人类的专业和学术水平\[笑cry\](图3,图4)

  5. 一方面说自己的测试没有做预训练,但另一方面又介绍 fine tuning 了许多 prompt...(图5,图6)

不过, openai 的营销水平非常赞,做的图表非常漂亮,应该会提高价格了,比 GPT-3.5效果好这么多(图7,图8),肯定是值得的\[可爱\]

最后,非常有价值的一点应该是报告中团队介绍那几页,可能会是以后热门职业方向,大家可以冲一下\[doge\]

  • 人工智能预训练师 Pretraining
  • 数据准备师 Data & Dataset
  • 训练保姆 Training run babysitting
  • 情景分析师 Long context research
  • 强化学习师 Reinforcement Learning & Alignment
  • 算法模型安全师 Model safety & Refusal
  • 现实世界用例评估师 Real world use case eval
  • 数据和模型污染调查师 Contamination investigation
  • 能力评估师 Capability Eval
  • 新奇能力发现师 Novel capability discovery
  • 安全与政策评估师 Safety and.policy eval
  • 对抗测试师 Adversarial tester

https://weibo.com/mygroups?gid=221012100009820647