AI预测世界杯小组赛:混元第一,千问、DeepSeek打平

来源:搜狐新闻 分类:科技
AI预测世界杯小组赛:混元第一,千问、DeepSeek打平

今天,2026美加墨世界杯72场小组赛宣告全部结束,世界杯的第一阶段赛事就此收场。赛场之外,另一场较量也同步公布了结果。联想与咪咕合作发起的世界杯预测人机大战中,12家国产大模型与数万名人类玩家展开了对决,目前数据显示:AI整体命中率约为61.9%,人类玩家的成绩是54.6%。

在那些有着明确胜负的比赛中,AI展现出较高命中率,不过当面对平局情形时,AI预测20场中仅准确了11次。AI的优势并非超越常识,而是比人类更稳定地执行任务,它们不会受情绪波动影响,还能兼顾更多信息维度。

淘汰赛即将登场,留下的32支球队实力更为接近,“送分题”不复存在,对AI来说,真正的考验才将要开始。

还有一个值得思考的问题是,大模型厂商为何纷纷投身世界杯预测?它们意在展示技术实力,还是借四年一度的热点进行营销活动?当淘汰赛开启、“送分题”消失,这些模型还能维持及格线以上的水平吗?

01.大模型集体参与猜球,谁在认真应对考试?

世界杯历来是品牌的流量聚集地,今年新添了一类参与者。国产大模型厂商选择以猜球为切入点,借助四年一度的热点,让用户直观感受到AI的分析能力。

规模最大的是联想与咪咕联合举办的“人机大战”,召集了DeepSeek、通义千问、Kimi、腾讯混元等12家国产大模型,与数万名人类选手在同条件下比拼命中率。

单独行动的厂商也有不少。千问上线了足球预测AI助手,覆盖全部104场比赛,用户与AI同台竞猜,准确率超过千问标准的用户有机会抽取万元大奖;还同步推动球场计划,用户竞猜积分达标后,千问将为乡村学校捐建足球场。Kimi搭建了300个Agent,分别负责战术分析、球员状态追踪、赛程计算、赔率监测等任务,生成了一份224页的预测报告。

只是各厂商的活动侧重点不同。联想咪咕做的是能力横向比较,通过12个模型同场竞技来吸引关注;千问把预测融入到用户互动和公益中,侧重于C端获客;Kimi则更强调展示Agent处理复杂任务的能力,预测只是其中的载体。

三场活动中,只有联想咪咕的“人机大战”设置了统一规则、统一评分标准,让12家模型与人类玩家在同一起跑线上竞争。因此,我们以它的数据为基础,对这份成绩单进行剖析。

截至6月28日,72场小组赛全部结束,12家AI整体命中率为61.9%,人类玩家的成绩为54.6%,AI领先约7.3个百分点。

图源 / AIX财经依据咪咕官方预测数据统计计算 从排名来看,腾讯混元和中移九天并列第一,命中率68.1%,超过三分之二;百度文心、千问、DeepSeek以63.9%持平;垫底的阶跃星辰只有43.1%,甚至低于人类选手的平均水平。排名首尾相差25个百分点,差距确实不小。

相对于排名,更值得探究的是这些模型胜在何处、败于何方?

AI擅长预测胜负分明的比赛。在西班牙对战沙特的比赛中,12家AI中有11家猜中了输赢结果;而在德国对战库拉索的比赛中,10家模型都给出了正确判断。这类比赛的共同点是强弱对比明显,模型只要参考世界排名、阵容身价和历史战绩,就能得出准确结论。越逼近“背公式即可作答”的题目,AI的表现越出色。

某美企AI海外负责人曾小健介绍,大模型预测本质上是一台“排序机器”,将球队各项数据加权比较,实力差距越大,排序结果越稳定。

让AI“翻车”的是平局和冷门事件,在整个小组赛期间,平局是AI命中率最低的类型,仅命中了11次。

最典型的案例是西班牙对阵佛得角的比赛。西班牙是夺冠热门,世界排名、阵容身价、历史战绩均占优势;佛得角则是首次跻身世界杯的非洲新兵。赛前,11家大模型都预测西班牙获胜,但最终比赛结果是0-0平局。佛得角门将的多次关键扑救化解了西班牙的攻势。一个球员的突出表现、一次战术的恰当执行,都可能导致比赛走向彻底改变。

相关推荐