科技

省钱,我只服梁文锋

来源:搜狐新闻
省钱,我只服梁文锋

DeepSeek最受诟病的,就是服务器容易崩溃。不过现在情况可能要变了,DeepSeek或许再也不会经历服务器卡顿或者宕机。这背后的原因是,梁文锋挂名发表了一篇题为《DSpark:基于置信度调度的推测解码与半自回归生成》的论文。按照DeepSeek的惯例,DSpark读起来应该是D·Spark,而非DS·park。这已是梁文锋在2024年发表《DeepSeek LLM》之后,挂名发表的第十二篇论文。不仅如此,DSpark这篇论文,还和梁文锋在2010年发表的硕士毕业论文同名了。DSpark相当于给DeepSeek装上了加速器,用户感受最直接的就是变快、变稳、不再崩。同样质量的回答,速度提升了60%到80%。原本需要等上十秒的回复,现在五六秒就能得到。尤其重要的是,高峰时段,DeepSeek也不会再一直出现加载动画了。这个DSpark究竟有何特别之处?别着急,听我慢慢道来。

01 DSpark是什么,如何解决DeepSeek的老毛病

大模型生成文字,本质上是在玩一个“猜字游戏”。模型每写一个字,都要重新审视前面所有字,计算一番,才能决定下一步该写什么。每增加一个字,AI就得从头到尾重新运算一次,写100个字,就要对自己写的内容反刍99次。学术界把这种“自我回归”的过程,称作“自回归生成”。整个过程就是现在的自己在追赶前一个的自己,前一个步骤还没完成,下一个步骤就无法进行。因此,过去几年,业界一直在探索,能不能让模型一次性猜出一串字?这个思路,正好是DSpark论文中提到的核心机制——投机解码。它的运行方式是,找一款跑得快但水平稍弱的模型当草稿,让它先凭感觉一口气猜出后面好几个字,然后将这一串字一次性交给大模型去验证。大模型看一眼,前面连续猜对的字直接保留,从第一个猜错的地方开始,由大模型自己补全,草稿模型再继续往下猜。这样一来,输出的内容既是大模型认可的,速度又比逐字猜测 快得多。业内普遍认为,投机解码有两种打法。第一种是“老实人”打法,草稿模型也是逐字逐句地猜,猜完一个字,看一前一后,再猜下一个。好处是输出质量高,缺点是速度太慢,跟大模型自己写差不多。第二种是不管不顾,一口气把后面所有字全猜出来。虽然速度快,但在猜字时完全不考虑前文,只看上一个字是什么。这导致开头还好,越往后猜字,输出质量就越低。论文里把这个现象称为“后缀衰减”:第一个字的正确率尚可,第二个字开始大幅下滑,到了第五、六个字基本上就是在胡乱猜测了。DSpark的核心思路叫半自回归生成,简单来说,它把上述两种方法结合了起来。第一步,用极快的速度把后面所有字全都猜出来。猜完之后回头检查一遍,看看有没有语句不通、错别字等问题。第二步,DSpark会给每个字打一个“靠谱分”,比如第一个字90分,第二个字80分,第三个字60分,第四个字30分。不过这里有个问题,打完分之后,DSpark知道哪个字写错了,如果要改正,又得回到最初的逐字自回归方法,那样好不容易提高的效率,又得打回去了。所以DSpark提出了一种方法,它会提前测量大模型在不同批大小下的处理速度,然后按照靠谱分,把每个请求的草稿从高到低排队。它先把所有请求里最高分的那一批,拿给大模型去验证。这个过程很快,因为数量少。然后它想:要不要把第二批也加进来?加了之后大模型会多花些时间,但这批字有80%是对的,能多得到几百个正确结果。多花的时间除以多得到的正确字,算出个效率值。如果划算,就加进来。第三批,60%的正确率。

相关推荐

网友评论

登录后发表评论
暂无评论,抢沙发吧~