大模型领域有个经典的测试用例：“生成一只骑自行车的鹈鹕的SVG图像。”这个蛮难

蚁工厂 2025-11-12 09:31:45

大模型领域有个经典的测试用例：“生成一只骑自行车的鹈鹕的SVG图像。” 这个蛮难的。Robert Glaser 在这个实验上做了个升级：让模型生成一个鹈鹕骑自行车的svg后，将其转换为JPG并让模型通过视觉能力进行观察，然后根据看到的结果进行自我改进，循环这一过程直到模型觉得画的比较完美了为止。实验测试了六个多模态模型：Claude Opus 4.1、Claude Sonnet 4.5、Claude Haiku 4.5、GPT-5 Medium 、GPT-5-Codex 和 Gemini 2.5 Pro。结果如图。Claude 系列都不错（前三张图），最抽象的是GPT-5-Codex 。。。

0 阅读：1

感谢大家的关注

作者最新文章

1

Claude发了篇官方的提示词工程最佳实践。这里翻译下其中的常见提示词问题排查和

2

试了下让GPT5.1和其他大模型来解刚才冯诺依曼做的那个无穷级数的题，几个大模型

3

说个笑话，微博发布的新模型VibeThinker-1.5B ，跑到推上去发模型发

4

大模型版的“十字路口”深度访谈来了！Nathan Lambert （《基于人类反

5

Google这个月已经发了三本关于智能体的白皮书了，这里汇总一下：1️⃣智能体入

6

Sebastian Raschka分享了如何如何高效阅读技术书籍（尤其是他那些关

7

麻省理工整理的一些编程竞赛资源，如奥赛这类的mitit.org/Contest/

8

“人人都好像觉得模型已经准备好取代人类工作了。我们通过创建一家公司（电商），让9

9

杨立昆得过图灵奖，还蛮符合苏州人才引进政策的，趁机过来得了。（明年就不行了，超过

10

冯·诺伊曼

热门分类

科技TOP

1

这是做什么工作的？电脑上也看不懂

2

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

3

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

4

科技发展真是越来越离谱啦！近日，浙江温州街头，一个人形机器人稳稳牵着机器狗遛弯，

5

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

6

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

7

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

8

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

9

这下你用iPhone的控制中心不会迷茫了。

10

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

科技最新文章

1

还别说这次的荣耀500系列外观设计有东西，正面是直屏大R角，极窄边框，背面一改之

2

荣耀是没学会怎么阉割标准版吗？料给的太足了！看完荣耀Magic8拆解视频，感

3

荣耀500大概就是这样了，猜价格？首先是外观全新大变样，这颜值比上一代提

4

荣耀不讲武德！这下GT2系列怕是要彻底杀疯了[捂脸哭]看完荣耀GT2系列的硬件配

5

发布会可以不用开了，荣耀500真机开箱来了，而且配置参数基本确定从媒体放出的

6

荣耀500真机外观亮相，全系列采用6.55英寸机身，荣耀500标准版搭载骁龙8s

7

想换mate70air了，在华为店模拟日常使用试玩了半天，9020b在华为这是吃

8

从华为Mate60Pro换到荣耀Magic8Pro，续航和拍照的提升是意料之

9

重磅消息！华为Mate80系列手机壳曝光，摄像模组是居中大圆，和华为Mate

10

今年7月发布的荣耀X70，用了快4个月了，现在体验怎么样呢？个人感觉，在中端