控制成本这方面,OpenAI如今正准备借鉴DeepSeek曾经走过的路。有外媒报道,OpenAI找到了一种新的系统优化方案,据说能把模型推理成本削减一半以上。原文是这样描述的:过去需要几万张GPU才能满足的需求,如今几百张就足够了。其实AI公司现在最头疼的,不是能不能让模型更聪明,而是聪明起来到底要耗费多少钱。以往,行业的主线一直是提升模型性能、扩展上下文窗口。可结果呢?能力是提升了,账单也跟着涨了。特别是像OpenAI这样月活达到8亿的公司,推理成本直接关系到他们的商业运作。
当所有人都在把AI编程、Agent当作核心讨论点时,OpenAI打算讲一个新故事。
一、OpenAI从很早以前就开始想办法降低推理成本
虽然OpenAI至今没有公开这个方案的技术细节,但外媒根据知情人士的说法,透露推理优化的方向主要集中在KV cache的改进上。KV cache是什么?简单说来,它就是模型读完前文后留下的"备忘录"。
大模型生成一句话,并不是一次性就完成,而是以token为单位逐步输出的。每生成一个新token,都需要回顾前面已经出现过的内容,判断接下来应该说什么。如果没有KV cache,模型每生成一个新token,就要把前面整段话重新读取一遍、重新计算一遍。例如你询问了1万字材料,它生成第1个字时需要读一遍,生成第2个字时还要再读一遍,生成到第10000个字时仍然需要再读一遍,那成本可就失控了。
海外科技博主安德鲁·库兰(Andrew Curran)指出,OpenAI在架构上取得重大突破,特别是在内存效率方面。最值得注意的是,开发这个新架构的团队是从OpenAI分离出来的,并且这个新团队预计很快就会公布成果。
其实OpenAI关注KV cache已经不是一两天的功夫了。早在2024年10月的一次开发者文档更新中,OpenAI就引入了Prompt Caching(提示词缓存)机制。
Prompt Caching本质上就是对KV cache的再利用。模型第一次读完一段前缀后,会生成相应的中间结果;如果后续请求使用了相同前缀,系统就能直接复用这部分KV cache,而不是重新计算整段prompt。
前缀通常是指开头那段反复出现的内容。比如:"你是一个严谨的法律助手,你可以调用搜索、数据库、计算器,以下是合同全文……请找出风险条款"。
其底层逻辑很清晰,很多请求并不是从零开始。尤其是系统提示、代码库上下文、长对话历史,经常会反复出现。如果每次都把这些前缀重新跑一遍prefill,就等于在浪费算力。
官方文档说明,通过Prompt Caching,最高能够把延迟降低80%,把输入token成本降低90%。
其实2024年5月时,DeepSeek就提出过类似思路,用来压缩KV cache。在DeepSeek-v2的技术报告中,DeepSeek团队提出了一个新机制,叫做Multi-head Latent Attention(MLA)。
MLA的核心目标是压缩KV cache。报告里表示,MLA把KV cache压缩进latent vector,从而实现高效推理。和DeepSeek 67B相比,DeepSeek-V2的KV cache减少了93.3%,最大生成吞吐量提升到5.76倍。
DeepSeek在V4发布后迅速调整了缓存命中价格,其实也是因为发现KV cache可以复用。
目前GPT还没有类似的折扣机制,因此这次OpenAI的推理优化,很可能就是想走DeepSeek的老路。
二、KV Cache如何限制HBM的使用
KV cache在多大程度上影响了HBM的使用呢?






