GPT-4 一下把提示长度提升到了两万多Token,肯定不能是之前GPT-3的办法(计算所有提示语句的KV,然后在超级长的序列里面用query去做Attention计算),啥技术细节都没有公布,多半这次升级是工程/业务改进型的,核心算法应该没有大变,当然这都是猜测。 登录后可查看完整内容,参与讨论!
,啥技术细节都没有公布,多半这次升级是工程/业务改进型的,核心算法应该没有大变,当然这都是猜测。 登录后可查看完整内容,参与讨论!
![](htt