顶尖模型已然问世,但或许你尚未准备好迎接。北京时间6月27日深夜(美东时间6月26日周五),OpenAI正式发布GPT-5.6版本。按惯例,这该是展示高光时刻、Altman微笑宣布“即刻可用”的场合。但现实并非如此。没有ChatGPT直接登陆,没有全球开发者API全开,也缺席了面向公众的发布会。取而代之的,是一封封写好地址的邀请函,收件人仅限20位左右,且每个都必须获得美国政府的批准。就在两周前,另一家AI领军企业Anthropic新推出的Fable 5模型,刚发布3天便遭美国商务部通过信函实施全球叫停。两个巨头,截然不同的应对方式,偏偏撞见同一扇紧锁的门。GPT-5.6的故事,既是一曲模型性能的赞歌,也是一道门槛正在步步紧闭的记录。
挑战者 GPT-5.6并非单一模型,而是一组产品。OpenAI摒弃了Pro、Mini之类的旧称谓,这次采用了天文学名词为代号:Sol(太阳)、Terra(大地)、Luna(月亮)。名称虽具诗意,实则暗合行业内成熟的三层产品架构:旗舰版追求技术极限,主力版满足日常需求,轻量版侧重速度与成本。在Terminal-Bench 2.1基准测试——这个最能评估AI端到端编程能力的标尺上,GPT-5.6 Sol在ultra模式下斩获了91.9%的顶尖分数,力压所有已公开的模型。该测试并非简单的代码书写,而是要求模型在命令行环境中理解问题、分解步骤、调用工具、执行命令、校验结果、纠错重试,直至任务终局,其考核过程更贴近实际开发而非应试模式。作为参照, Anthropic此前发布的Claude Mythos 5得分为88.0%,Fable 5为84.3%。意味着Mythos 5的榜首仅坚守了17天。即便Sol的ultra模式关闭,其max模式也能达到88.8%,这一数字足以反超Anthropic最新的两款旗舰模型。真正引发对手警觉的,非分数本身,而是惊人的效率比。在ExploitBench这个模拟真实网络攻防场景的安全评估中,Sol表现几乎与Anthropic曾“因过强而隐匿不发”的Mythos Preview不相上下,但仅消耗了约三分之一的输出token。更少token即代表更优推理路径、更少试错成本,也指向更可控的实际调用开销。在CTF夺旗赛中,Sol的胜率高达96.7%,几近完美。OpenAI持续向外界释放明确信号:我们不仅速度最快,而且用得最经济。此类效率优势源于两项革新机制。首项名为max reasoning effort,可理解为“增强推理深度”,它赋予Sol更多时间以及更长的推理链条来攻克那些非即时能解决的复杂问题。次项ultra mode设计更显巧思。不再是单模型独立思考,Sol会自主拆解复杂任务、调度多个子智能体并行处理、再综合最终结果。相较Anthropic需手动设计协作模式的Agent Teams,ultra是模型自我完成任务拆解与协调。Terminal-Bench的顶尖成绩正源自ultra模式。三层定价体系亦值得关注。Sol的定价与上一代GPT-5.5标准版看齐,输入成本为5美元、输出为30美元每百万token,能力却实现了跨代飞跃。Terra砍半至2.5美元及15美元,OpenAI直言其定位为“GPT-5.5能力,半价享受”,在Terminal-Bench中取得84.3%,与Claude Fable 5战平。Luna的定价则压





