大模型领域有个经典的测试用例:“生成一只骑自行车的鹈鹕的SVG图像。”这个蛮难

蚁工厂 2025-11-12 09:31:45

大模型领域有个经典的测试用例:“生成一只骑自行车的鹈鹕的SVG图像。” 这个蛮难的。Robert Glaser 在这个实验上做了个升级:让模型生成一个鹈鹕骑自行车的svg后,将其转换为JPG并让模型通过视觉能力进行观察,然后根据看到的结果进行自我改进,循环这一过程直到模型觉得画的比较完美了为止。实验测试了六个多模态模型:Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium 、GPT-5-Codex 和 Gemini 2.5 Pro。结果如图。Claude 系列都不错(前三张图),最抽象的是GPT-5-Codex 。。。

0 阅读:1
蚁工厂

蚁工厂

感谢大家的关注