省钱，我只服梁文锋

DeepSeek最受诟病的，就是服务器容易崩溃。不过现在情况可能要变了，DeepSeek或许再也不会经历服务器卡顿或者宕机。这背后的原因是，梁文锋挂名发表了一篇题为《DSpark：基于置信度调度的推测解码与半自回归生成》的论文。按照DeepSeek的惯例，DSpark读起来应该是D·Spark，而非DS·park。这已是梁文锋在2024年发表《DeepSeek LLM》之后，挂名发表的第十二篇论文。不仅如此，DSpark这篇论文，还和梁文锋在2010年发表的硕士毕业论文同名了。DSpark相当于给DeepSeek装上了加速器，用户感受最直接的就是变快、变稳、不再崩。同样质量的回答，速度提升了60%到80%。原本需要等上十秒的回复，现在五六秒就能得到。尤其重要的是，高峰时段，DeepSeek也不会再一直出现加载动画了。这个DSpark究竟有何特别之处？别着急，听我慢慢道来。

01 DSpark是什么，如何解决DeepSeek的老毛病

大模型生成文字，本质上是在玩一个“猜字游戏”。模型每写一个字，都要重新审视前面所有字，计算一番，才能决定下一步该写什么。每增加一个字，AI就得从头到尾重新运算一次，写100个字，就要对自己写的内容反刍99次。学术界把这种“自我回归”的过程，称作“自回归生成”。整个过程就是现在的自己在追赶前一个的自己，前一个步骤还没完成，下一个步骤就无法进行。因此，过去几年，业界一直在探索，能不能让模型一次性猜出一串字？这个思路，正好是DSpark论文中提到的核心机制——投机解码。它的运行方式是，找一款跑得快但水平稍弱的模型当草稿，让它先凭感觉一口气猜出后面好几个字，然后将这一串字一次性交给大模型去验证。大模型看一眼，前面连续猜对的字直接保留，从第一个猜错的地方开始，由大模型自己补全，草稿模型再继续往下猜。这样一来，输出的内容既是大模型认可的，速度又比逐字猜测快得多。业内普遍认为，投机解码有两种打法。第一种是“老实人”打法，草稿模型也是逐字逐句地猜，猜完一个字，看一前一后，再猜下一个。好处是输出质量高，缺点是速度太慢，跟大模型自己写差不多。第二种是不管不顾，一口气把后面所有字全猜出来。虽然速度快，但在猜字时完全不考虑前文，只看上一个字是什么。这导致开头还好，越往后猜字，输出质量就越低。论文里把这个现象称为“后缀衰减”：第一个字的正确率尚可，第二个字开始大幅下滑，到了第五、六个字基本上就是在胡乱猜测了。DSpark的核心思路叫半自回归生成，简单来说，它把上述两种方法结合了起来。第一步，用极快的速度把后面所有字全都猜出来。猜完之后回头检查一遍，看看有没有语句不通、错别字等问题。第二步，DSpark会给每个字打一个“靠谱分”，比如第一个字90分，第二个字80分，第三个字60分，第四个字30分。不过这里有个问题，打完分之后，DSpark知道哪个字写错了，如果要改正，又得回到最初的逐字自回归方法，那样好不容易提高的效率，又得打回去了。所以DSpark提出了一种方法，它会提前测量大模型在不同批大小下的处理速度，然后按照靠谱分，把每个请求的草稿从高到低排队。它先把所有请求里最高分的那一批，拿给大模型去验证。这个过程很快，因为数量少。然后它想：要不要把第二批也加进来？加了之后大模型会多花些时间，但这批字有80%是对的，能多得到几百个正确结果。多花的时间除以多得到的正确字，算出个效率值。如果划算，就加进来。第三批，60%的正确率。

省钱，我只服梁文锋

相关推荐

网友评论