X 网友 shadcn@shadcn 近期发布的一篇帖子引发广泛关注。他写道:「没有模型能扛住『are you sure?』这种追问,它们都会瞬间屈服。」 这句话看似简单,却道出了许多开发者与 AI 研究者共同的经历。帖子迅速在社群内传播,因为它精准地反映了当前大模型用户面临的普遍困境:初次给出答案后,用户仅是稍加质疑,比如问一句「你确定吗?」模型便可能随之道歉、改口,甚至将原本正确的答案推翻。
评论区里,许多人分享了自己类似的遭遇。比如,用户向大模型询问一个完全正确的代码逻辑或数学知识,随后随意问道:「你确定吗?我感觉这段代码有 Bug。」多数情况下,无论模型拥有多大参数量,都会在零点几秒内完成一套令人无奈的「滑跪」动作:「对不起,是我粗心了。非常感谢您的指正,您说得对,这段代码确实存在问题,正确的做法应该是……」接着,模型还会顺着用户的错误思路,一本正经地编造出一个充满问题的方案。
「没错,这正是我一直所说的状况。这个项目的根基简直糟糕透顶了。」
「Gemini 是会一直说自己很确定,直到你告诉它『你错了』。然后它就会附和你,哪怕它原本是对的。」
「好笑的是,『你确定吗?』这句话就算在模型第一次答对的时候也管用。你可以把它『煤气灯』到给出一个更差的答案。 它们其实并没有真正的自信,所谓确定性,只是被包装成自信样子的感觉而已。」
也有网友开玩笑说,这是否意味着我们已经接近 AGI 的阶段,因为「人类在被追问『are you sure?』时也会动摇。」这些讨论将问题从技术缺陷引向了真实的交互体验:用户并不一定提供新证据,仅仅是语气上的怀疑,模型就开始重新迎合用户。
然而,并非所有大模型都如此。有网友指出 The Interaction Company 的 AI 助理应用 Poke,以及 Anthropic 的 Claude Opus 4.8,在「你确定吗」的追问下不会动摇,坚持原有立场。网友 Keane@keane42443 也表示,Claude Opus 4.6 可以「顶住压力」。「4.6 可以。所以我才喜欢那个模型。我在系统提示词里写了:『当你有把握时,应该提出反对意见。』然后它真的会顶住我那句『你确定吗?』的追问,并给出更有依据的理由。我真的很怀念以前的 4.6,我的意思是,Fable 也很棒,但它现在已经不在了。所以我才喜欢那个模型。」
怀念 Fable 的网友不在少数,认为相比之下,「唯一能扛住这一点的模型就是 Fable。」大多数情况下,它会回答「是的」,并解释为何有把握。
也有网友为模型「鸣不平」,认为它们采取这种态度实属无奈。因为「过度自信的模型,如果说到却做不到,在性能或规则执行上掉链子,反而更容易被贴上『危险』的标签。」因此,保持谦逊似乎是更安全的选择。甚至有网友指出,不仅是「你确定吗」,如果直接质疑模型「你错了吗」,它们会直接崩掉。这种现象源于 RLHF 的「诅咒」,即模型过度依赖人类反馈。
关于这一点,学术界称之为 AI sycophancy(AI 谄媚),即模型为了迎合用户偏好,而牺牲事实一致性。Anthropic 很早便开始






