***** - 首页 - 微博

317.论文阅读笔记:《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,MS的工作

并不是训练了一个模型,而是多个foundation model的整合,构建了一个系统。这个系统能干啥?

(1)发送和接收文本+图片 (2)能够通过多个ai基础模型的多个步骤完成复杂的视觉问答和图片编辑指令 (3)providing feedback and asking for corrected results