推理成本砍掉一半以上，OpenAI摸着DeepSeek过河

控制成本这方面，OpenAI如今正准备借鉴DeepSeek曾经走过的路。有外媒报道，OpenAI找到了一种新的系统优化方案，据说能把模型推理成本削减一半以上。原文是这样描述的：过去需要几万张GPU才能满足的需求，如今几百张就足够了。其实AI公司现在最头疼的，不是能不能让模型更聪明，而是聪明起来到底要耗费多少钱。以往，行业的主线一直是提升模型性能、扩展上下文窗口。可结果呢？能力是提升了，账单也跟着涨了。特别是像OpenAI这样月活达到8亿的公司，推理成本直接关系到他们的商业运作。

当所有人都在把AI编程、Agent当作核心讨论点时，OpenAI打算讲一个新故事。

一、OpenAI从很早以前就开始想办法降低推理成本

虽然OpenAI至今没有公开这个方案的技术细节，但外媒根据知情人士的说法，透露推理优化的方向主要集中在KV cache的改进上。KV cache是什么？简单说来，它就是模型读完前文后留下的"备忘录"。

大模型生成一句话，并不是一次性就完成，而是以token为单位逐步输出的。每生成一个新token，都需要回顾前面已经出现过的内容，判断接下来应该说什么。如果没有KV cache，模型每生成一个新token，就要把前面整段话重新读取一遍、重新计算一遍。例如你询问了1万字材料，它生成第1个字时需要读一遍，生成第2个字时还要再读一遍，生成到第10000个字时仍然需要再读一遍，那成本可就失控了。

海外科技博主安德鲁·库兰（Andrew Curran）指出，OpenAI在架构上取得重大突破，特别是在内存效率方面。最值得注意的是，开发这个新架构的团队是从OpenAI分离出来的，并且这个新团队预计很快就会公布成果。

其实OpenAI关注KV cache已经不是一两天的功夫了。早在2024年10月的一次开发者文档更新中，OpenAI就引入了Prompt Caching（提示词缓存）机制。

Prompt Caching本质上就是对KV cache的再利用。模型第一次读完一段前缀后，会生成相应的中间结果；如果后续请求使用了相同前缀，系统就能直接复用这部分KV cache，而不是重新计算整段prompt。

前缀通常是指开头那段反复出现的内容。比如："你是一个严谨的法律助手，你可以调用搜索、数据库、计算器，以下是合同全文……请找出风险条款"。

其底层逻辑很清晰，很多请求并不是从零开始。尤其是系统提示、代码库上下文、长对话历史，经常会反复出现。如果每次都把这些前缀重新跑一遍prefill，就等于在浪费算力。

官方文档说明，通过Prompt Caching，最高能够把延迟降低80%，把输入token成本降低90%。

其实2024年5月时，DeepSeek就提出过类似思路，用来压缩KV cache。在DeepSeek-v2的技术报告中，DeepSeek团队提出了一个新机制，叫做Multi-head Latent Attention（MLA）。

MLA的核心目标是压缩KV cache。报告里表示，MLA把KV cache压缩进latent vector，从而实现高效推理。和DeepSeek 67B相比，DeepSeek-V2的KV cache减少了93.3%，最大生成吞吐量提升到5.76倍。

DeepSeek在V4发布后迅速调整了缓存命中价格，其实也是因为发现KV cache可以复用。

目前GPT还没有类似的折扣机制，因此这次OpenAI的推理优化，很可能就是想走DeepSeek的老路。

二、KV Cache如何限制HBM的使用

KV cache在多大程度上影响了HBM的使用呢？

推理成本砍掉一半以上，OpenAI摸着DeepSeek过河

相关推荐

稀疏盲解卷积计算自适应光学方法提升荧光显微成像质量

中国又一科技突破！海水制氢新技术，全球能源格局要改写？

日本人排大队抢购中国相机，很可能只是个开始……

长期刷短视频，会让人变“笨”吗？

Fable 5 内心「小作文」曝光，这次真不做人了

芯片行业工资涨疯了！联发科碾压台积电：普通员工人均年薪446.5万