arxiv.org/abs/2511.02779字跳的这个论文蛮有意思。现在的大

蚁工厂 2025-11-11 21:31:28

arxiv.org/abs/2511.02779字跳的这个论文蛮有意思。现在的大模型包括多模态大模型在某类问题上成功率不高:需要通过生成中间的视觉图像(如草图、结构图或路径)才能解决的问题。在这类问题上使用纯文本思维链(Level 2)几乎没有带来任何好处,甚至对某些强大模型(如Gemini 2.5 Pro 和 O3)的性能有负面影响(准确率分别下降18.3%和14.0%)。论文中的实验结果认为,未来的多模态模型迫切需要发展出一种“边想边画”的能力,在推理过程中主动生成和利用高质量的中间视觉状态(有点像人类打草稿一样?),以弥合与人类解决问题方式之间的差距。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注