GPT-5.6：最强的模型，最窄的门

顶尖模型已然问世，但或许你尚未准备好迎接。北京时间6月27日深夜（美东时间6月26日周五），OpenAI正式发布GPT-5.6版本。按惯例，这该是展示高光时刻、Altman微笑宣布“即刻可用”的场合。但现实并非如此。没有ChatGPT直接登陆，没有全球开发者API全开，也缺席了面向公众的发布会。取而代之的，是一封封写好地址的邀请函，收件人仅限20位左右，且每个都必须获得美国政府的批准。就在两周前，另一家AI领军企业Anthropic新推出的Fable 5模型，刚发布3天便遭美国商务部通过信函实施全球叫停。两个巨头，截然不同的应对方式，偏偏撞见同一扇紧锁的门。GPT-5.6的故事，既是一曲模型性能的赞歌，也是一道门槛正在步步紧闭的记录。

挑战者 GPT-5.6并非单一模型，而是一组产品。OpenAI摒弃了Pro、Mini之类的旧称谓，这次采用了天文学名词为代号：Sol（太阳）、Terra（大地）、Luna（月亮）。名称虽具诗意，实则暗合行业内成熟的三层产品架构：旗舰版追求技术极限，主力版满足日常需求，轻量版侧重速度与成本。在Terminal-Bench 2.1基准测试——这个最能评估AI端到端编程能力的标尺上，GPT-5.6 Sol在ultra模式下斩获了91.9%的顶尖分数，力压所有已公开的模型。该测试并非简单的代码书写，而是要求模型在命令行环境中理解问题、分解步骤、调用工具、执行命令、校验结果、纠错重试，直至任务终局，其考核过程更贴近实际开发而非应试模式。作为参照， Anthropic此前发布的Claude Mythos 5得分为88.0%，Fable 5为84.3%。意味着Mythos 5的榜首仅坚守了17天。即便Sol的ultra模式关闭，其max模式也能达到88.8%，这一数字足以反超Anthropic最新的两款旗舰模型。真正引发对手警觉的，非分数本身，而是惊人的效率比。在ExploitBench这个模拟真实网络攻防场景的安全评估中，Sol表现几乎与Anthropic曾“因过强而隐匿不发”的Mythos Preview不相上下，但仅消耗了约三分之一的输出token。更少token即代表更优推理路径、更少试错成本，也指向更可控的实际调用开销。在CTF夺旗赛中，Sol的胜率高达96.7%，几近完美。OpenAI持续向外界释放明确信号：我们不仅速度最快，而且用得最经济。此类效率优势源于两项革新机制。首项名为max reasoning effort，可理解为“增强推理深度”，它赋予Sol更多时间以及更长的推理链条来攻克那些非即时能解决的复杂问题。次项ultra mode设计更显巧思。不再是单模型独立思考，Sol会自主拆解复杂任务、调度多个子智能体并行处理、再综合最终结果。相较Anthropic需手动设计协作模式的Agent Teams，ultra是模型自我完成任务拆解与协调。Terminal-Bench的顶尖成绩正源自ultra模式。三层定价体系亦值得关注。Sol的定价与上一代GPT-5.5标准版看齐，输入成本为5美元、输出为30美元每百万token，能力却实现了跨代飞跃。Terra砍半至2.5美元及15美元，OpenAI直言其定位为“GPT-5.5能力，半价享受”，在Terminal-Bench中取得84.3%，与Claude Fable 5战平。Luna的定价则压

GPT-5.6：最强的模型，最窄的门

相关推荐

家庭暖心故事变绘本，这场活动助力“家+有AI”

贵阳航发精密铸造取得航发叶片焊接夹具专利，有效减少夹具体积

双奖加冕！大族激光斩获2026智能制造行业“荣格技术创新奖”

“黑科技”上岗！天府公园治水有了“最强大脑”

第八届海峡两岸物联网技术与产业发展研讨会举办

长飞加速AI短距多模技术跃迁，携手生态共拓产业新未来