大模型领域有个经典的测试用例:“生成一只骑自行车的鹈鹕的SVG图像。” 这个蛮难的。Robert Glaser 在这个实验上做了个升级:让模型生成一个鹈鹕骑自行车的svg后,将其转换为JPG并让模型通过视觉能力进行观察,然后根据看到的结果进行自我改进,循环这一过程直到模型觉得画的比较完美了为止。实验测试了六个多模态模型:Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium 、GPT-5-Codex 和 Gemini 2.5 Pro。结果如图。Claude 系列都不错(前三张图),最抽象的是GPT-5-Codex 。。。





