“人人都好像觉得模型已经准备好取代人类工作了。我们通过创建一家公司(电商),让9

蚁工厂 2025-11-12 20:31:57

“人人都好像觉得模型已经准备好取代人类工作了。我们通过创建一家公司(电商),让9个模型担任客服,处理150个复杂度递增的工单和请求,来检验这一点。结论:模型没有常识,模型还远未准备好。”详细: surgehq.ai/blog/rl-envs-real-world2025年被称为“智能代理元年”,人工智能正从聊天界面走向真实世界的应用。然而,尽管技术取得进展,真正具备通用智能的AI代理仍可能距离我们十年之遥。核心问题在于:这些AI能完成多少具有经济价值的现实任务?为此,模型的训练与评估已从单轮对话评分转向在强化学习(RL)环境中测试多步骤、工具调用的真实任务。Surge AI做了个测试。在名为Corecraft的虚拟环境中,九个AI模型被测试执行150项任务,结果令人警醒:即便是GPT-5和Claude Sonnet 4.5,也失败了超过40%的代理任务。失败主因并非工具使用错误,而是缺乏连贯的上下文理解、规划能力和常识推理。例如,一些模型虽制定了正确计划,却在执行中遗忘关键信息;GPT-5在处理客户升级显卡请求时,误将“我的账户名为Sarah Kim”理解为修改指令,而非识别身份,导致未能获取个性化定价,暴露出其在语境理解和常识推理上的严重缺陷。研究发现,AI需掌握四大基础能力:记忆一致性、任务规划、工具协调与上下文锚定,才能在开放环境中稳定运作。然而,这些能力尚不意味着AI已接近人类水平。真正的挑战在于“常识推理”——这一能力目前难以明确定义,也无法通过简单训练获得,可能是大规模现实训练的涌现特性。因此,2025年的意义不在于实现了通用智能代理,而在于我们首次拥有了足够可靠的代理系统,可以开始系统分析其推理缺陷。未来的关键任务是训练和理解那些正快速逼近人类智能的AI系统,而何时能真正弥合差距,仍是未知之数。

0 阅读:1
蚁工厂

蚁工厂

感谢大家的关注