***** - 首页

317.论文阅读笔记：《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》，MS的工作

并不是训练了一个模型，而是多个foundation model的整合，构建了一个系统。这个系统能干啥？

（1）发送和接收文本+图片（2）能够通过多个ai基础模型的多个步骤完成复杂的视觉问答和图片编辑指令（3）providing feedback and asking for corrected results

***** - 首页 - 微博