Shiqi 聊 SkillCraft 设计了一个叫 Toolathlon 的评测环境

前几天看到马老师在聊 SkillCraft 这个工作，挺有意思的。正好它的作者 Shiqi 也分享了一点背后的故事，我读完觉得挺有启发的，就想着也和你聊聊。

事情得从去年说起。他们当时在琢磨怎么让大模型在虚拟环境里学东西，具体来说，是让模型用强化学习去玩“推箱子”这个游戏。

结果怎么训都训不好。模型就是学不会。

一开始大家觉得是强化学习算法有问题，调来调去没进展。后来才发现，问题出在一个更根本的地方：模型根本“看不懂”游戏画面。

你想，推箱子游戏里，箱子的位置、人的位置，全是靠坐标决定的。但模型看到的是什么？是一堆像素，或者是一串描述画面的二维字符串。它从这一堆信息里，根本提取不出“坐标”这个关键概念。

这就好比让你蒙着眼睛下棋，别人只告诉你棋盘上每个格子的颜色，却不告诉你棋子在哪儿，你怎么可能下得对？

登录后可查看完整内容，参与讨论！

立即登录