白山智算

“缓存计费”上线，让大模型API使用更省、更快、更智能！

大模型API服务及时推出缓存计费功能，通过自动识别重复请求并返回缓存结果，降低用户使用成本。该功能已集成到现有系统中，无需修改调用方式即可使用。

为什么需要缓存计费？

在真实业务场景中，许多AI请求具有高度重复性：
比如客服系统中反复调用的常见问题解答、营销文案生成中的固定模板、前端智能提示的通用建议……
这些“重复劳动”本不该每次都支付全额推理费用！

而且，问答场景中都是多轮对话，随着对话次数的增加，历史数据会越积越多，传入大模型的输入数据就会越大，推理费用就会越高。

现在，有了缓存计费：能省下的，咱们一分都不多花。

什么是“缓存计费”？

1. 自动缓存

系统自动对每个请求进行缓存处理
使用标准化的/chat/completions接口，无需添加任何额外参数
缓存基于请求内容（包括prompt、模型参数等）生成唯一标识

2. 缓存命中与计费

缓存命中：当系统检测到相同请求时，直接返回缓存结果
计费方式：
- 命中缓存：仅收取缓存读取费（低于输入token价格）
- 未命中缓存：按原有规则收取输入+输出Token费用

缓存计费金额在哪查询

当前支持缓存计费的模型不多，具体可以在算力平台的模型详情中查看

缓存计费2

当模型费用中出现缓存价格时，该模型使用过程中就会自动享受缓存带来的优惠

无需变更原有API调用：

http

POST /chat/completions
Authorization: Bearer <API_KEY>
Content-Type: application/json

{
  "model": "Qwen3-235B-A22B-2507",
  "messages": [
    {"role": "user", "content": "用一句话介绍人工智能。"}
  ],
  "temperature": 0.7,
  "max_tokens": 128000
}

计费变化对比

缓存计费1

注：示例成本仅供参考，实际费用根据不同模型的不同Token使用量计算

为什么需要缓存计费？ ​

什么是“缓存计费”？ ​

1. 自动缓存 ​

2. 缓存命中与计费 ​

缓存计费金额在哪查询 ​

无需变更原有API调用： ​