目前的多模态大语言模型多采用外接一个其它模态的编码器。但是这离AGI还有一定的距离,我们提出了SpeechGPT,它具有内生的跨模态能力,是第一个既能接受跨模态输入,也能产生跨模态输出的大语言模型。SpeechGPT突破了传统语音到语音对话cascaded system (ASR+LLM+TTS) 的束缚,实现了模态之间的知识传递,不需要额外的ASR和TTS系统也能和LLM直接进行语音对话。 登录后可查看完整内容,参与讨论! 立即登录 返回最新资讯列表