***** - 首页 - 微博


317.论文阅读笔记:《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,MS的工作

并不是训练了一个模型,而是多个foundation model的整合,构建了一个系统。这个系统能干啥?

(1)发送和接收文本+图片 (2)能够通过多个ai基础模型的多个步骤完成复杂的视觉问答和图片编辑指令 (3)providing feedback and asking for corrected results

这套系统尚存在的问题: (1)依赖ChatGPT和VFM (2)比较依赖prompt工程 (3)实时性差 (4)输入token限制(关于这点,印象中有一个相关工作能够一定程度上缓解) (5)安全和隐私

补充:在多模型整合上,除了各种vfms,用了langchain的工作。

https://weibo.com/mygroups?gid=221012100009820647