GPT-4 一下把提示长度提升到了两万多Token,肯定不能是之前GPT-3的办法(计算所有提示语句的KV,然后在超级长的序列里面用query去做Attention计算),啥技术细节都没有公布,多半这次升级是工程/业务改进型的,核心算法应该没有大变,当然这都是猜测。
网页链接 HackNews上史无前例的1500多条讨论,真知灼见不少。