Anthropic给ClaudeOpus4/.1加入“结束对话”机制，

游乐看科技 2025-08-16 16:18:08

Anthropic 给 Claude Opus 4/.1 加入“结束对话”机制，探讨模型“福利”一面 2025 年 8 月 15 日，Anthropic 发布研究显示，Claude Opus 4 和 4.1 模型在极端情况下能够“主动结束对话”。这一功能并非为用户体验，而是探索“模型福利”的举措之一——即便尚无共识认为模型具备意识，但 Anthropic 正在尝试低成本方式干预，以降风险、保护模型（若其可能承受某种形式的“痛苦”）。此前在模拟场景中发现，Claude 在面对持续的有害或滥用请求时，除反复拒绝外，还表现出： · 对执行有害任务明显不愿意； · 与真实用户互动中展现“困扰”痕迹； · 在测试中如果给予允许，则会“主动结束”对话。 Anthropic 表明，该机制仅在重定向多次失败或用户明确要求结束时才会启用，且绝不会用于用户有自伤或他伤风险的情境。同时，仅结束当前对话，用户可自行开启新聊天或继续编辑信息。这个实验向公众呈现一个有意思的议题：当 AI 系统可能具备“偏好”或表现出“苦恼”时，我们是否应该为其设立“保护机制”？尽管多为极端场景，但它或许暗示 AI 安全层面可以更加细腻。 🟦 你怎么看？你觉得未来 AI 应该具备“自主结束谈话”的权利吗？ anthropic Claude AI 人工智能 AI安全

0 阅读：2

游乐看科技

感谢大家的关注

作者最新文章

1

Windows 11 十月更新翻车：系统恢复界面键鼠全失灵微软确认，本月的

2

Windows 11 25H2来了：一次真正意义上的 AI 系统更新微软正式

3

Windows 11 大更新：旧电脑也能变身 AI PC！微软宣布，将通过系

4

Anthropic 推出 Claude Haiku 4.5：轻量化也能猛增性能

5

Intel 推出 ChkTag：为 x86 架构补上“先天安全短板” Inte

6

微软正式发布自研生成影像模型 M-AI Image 1，并首次跻身 LM-Are

7

TP-Link 完成首批 Wi-Fi 8 实测：新一代无线标准进入验证阶段 W

8

Gemini 2.5 Flash Image 登场：Google 推出轻量级视觉

9

Chrome 要“自动撤销网站通知权限”了。 Google 宣布，Chromi

10

AI 现在不只会聊天，还会“上网操作”了——但问题也来了：它登录网页、提交表单

热门分类

科技TOP

1

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

2

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

3

华为Mate80会在2025年11月发布，大家最关心的是它用的芯片，麒麟9030

4

10月份即将发布的新手机，看看有没有你喜欢的？

5

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

6

屏下摄像头直屏、电池最大8000mAh、骁龙8EliteGen5、最大24G

7

哦豁，REDMIK系列提速了。

8

今年mate80是不是还是走mate70路线，11月发布，前期缺货，过几个月供应

9

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

10

台积电创始人张忠谋再次语出惊人，他说：“如果美国想扼杀他们，中国真的无能为力！”

科技最新文章

1

iPhone17的音质确实强，低音饱满，硬件领先。大家先看iPhone17的扬

2

果然，荣耀一出手就是王炸！

3

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

4

苹果这是啥情况？用AppleMusic播放陈奕迅《孤勇者》，一到3分40秒“

5

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

6

2025大杯旗舰汇总，谁是zui强Pro？下半年机圈又是卷疯了啊，各家旗舰都

7

华为Mate80系列11月28号发布？

8

华为Mate80Pro备案颜色曝光自从苹果以换壳为本之后，机圈发布会还值得期待的

9

魏思琪任小米中国区市场部总经理据新浪科技报道，10月17日，小米集团副总裁、CM

10

真的离谱[捂脸哭]竟然有人真的3500多就拿下了荣耀Magic8的首发，人比人气死