317.论文阅读笔记:《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,MS的工作
并不是训练了一个模型,而是多个foundation model的整合,构建了一个系统。这个系统能干啥?
(1)发送和接收文本+图片 (2)能够通过多个ai基础模型的多个步骤完成复杂的视觉问答和图片编辑指令 (3)providing feedback and asking for corrected results
登录后可查看完整内容,参与讨论!
立即登录