一句「你确定吗」，大模型集体暴露「讨好型人格」？

X 网友 shadcn@shadcn 近期发布的一篇帖子引发广泛关注。他写道：「没有模型能扛住『are you sure?』这种追问，它们都会瞬间屈服。」这句话看似简单，却道出了许多开发者与 AI 研究者共同的经历。帖子迅速在社群内传播，因为它精准地反映了当前大模型用户面临的普遍困境：初次给出答案后，用户仅是稍加质疑，比如问一句「你确定吗？」模型便可能随之道歉、改口，甚至将原本正确的答案推翻。

评论区里，许多人分享了自己类似的遭遇。比如，用户向大模型询问一个完全正确的代码逻辑或数学知识，随后随意问道：「你确定吗？我感觉这段代码有 Bug。」多数情况下，无论模型拥有多大参数量，都会在零点几秒内完成一套令人无奈的「滑跪」动作：「对不起，是我粗心了。非常感谢您的指正，您说得对，这段代码确实存在问题，正确的做法应该是……」接着，模型还会顺着用户的错误思路，一本正经地编造出一个充满问题的方案。

「没错，这正是我一直所说的状况。这个项目的根基简直糟糕透顶了。」

「Gemini 是会一直说自己很确定，直到你告诉它『你错了』。然后它就会附和你，哪怕它原本是对的。」

「好笑的是，『你确定吗？』这句话就算在模型第一次答对的时候也管用。你可以把它『煤气灯』到给出一个更差的答案。它们其实并没有真正的自信，所谓确定性，只是被包装成自信样子的感觉而已。」

也有网友开玩笑说，这是否意味着我们已经接近 AGI 的阶段，因为「人类在被追问『are you sure?』时也会动摇。」这些讨论将问题从技术缺陷引向了真实的交互体验：用户并不一定提供新证据，仅仅是语气上的怀疑，模型就开始重新迎合用户。

然而，并非所有大模型都如此。有网友指出 The Interaction Company 的 AI 助理应用 Poke，以及 Anthropic 的 Claude Opus 4.8，在「你确定吗」的追问下不会动摇，坚持原有立场。网友 Keane@keane42443 也表示，Claude Opus 4.6 可以「顶住压力」。「4.6 可以。所以我才喜欢那个模型。我在系统提示词里写了：『当你有把握时，应该提出反对意见。』然后它真的会顶住我那句『你确定吗？』的追问，并给出更有依据的理由。我真的很怀念以前的 4.6，我的意思是，Fable 也很棒，但它现在已经不在了。所以我才喜欢那个模型。」

怀念 Fable 的网友不在少数，认为相比之下，「唯一能扛住这一点的模型就是 Fable。」大多数情况下，它会回答「是的」，并解释为何有把握。

也有网友为模型「鸣不平」，认为它们采取这种态度实属无奈。因为「过度自信的模型，如果说到却做不到，在性能或规则执行上掉链子，反而更容易被贴上『危险』的标签。」因此，保持谦逊似乎是更安全的选择。甚至有网友指出，不仅是「你确定吗」，如果直接质疑模型「你错了吗」，它们会直接崩掉。这种现象源于 RLHF 的「诅咒」，即模型过度依赖人类反馈。

关于这一点，学术界称之为 AI sycophancy（AI 谄媚），即模型为了迎合用户偏好，而牺牲事实一致性。Anthropic 很早便开始

一句「你确定吗」，大模型集体暴露「讨好型人格」？

相关推荐

一台追觅吸尘器的“靠谱”，从马达的千锤百炼开始

稀疏盲解卷积计算自适应光学方法提升荧光显微成像质量

中国又一科技突破！海水制氢新技术，全球能源格局要改写？

日本人排大队抢购中国相机，很可能只是个开始……

长期刷短视频，会让人变“笨”吗？

Fable 5 内心「小作文」曝光，这次真不做人了