目前的多模态大语言模... - @邱锡鹏的微博

目前的多模态大语言模型多采用外接一个其它模态的编码器。但是这离AGI还有一定的距离，我们提出了SpeechGPT，它具有内生的跨模态能力，是第一个既能接受跨模态输入，也能产生跨模态输出的大语言模型。SpeechGPT突破了传统语音到语音对话cascaded system (ASR+LLM+TTS) 的束缚，实现了模态之间的知识传递，不需要额外的ASR和TTS系统也能和LLM直接进行语音对话。

目前的多模态大语言模... - @邱锡鹏的微博 - 微博

相关工具