文章

Agent 成本战：90% 缓存命中率如何重塑 LLM 应用架构

#317 · 2026-05-14 · 21ZHAO Blog

阅读数据加载中… 点赞数据加载中…

生成页数

幻灯片语言

提炼重点 / 自定义指令 (可选)

引言

在大型语言模型（LLM）应用从“实验性玩具”转向“生产级工具”的过程中，成本控制已成为决定产品生死的关键指标。近期，开源社区 V2EX 上的一篇深度工程分享引发了广泛关注：开发者团队 Harness 详细披露了他们如何通过优化 Prompt Cache（提示词缓存）命中率，将 LLM Agent 的运行成本压缩至极致。这不仅是一次技术复盘，更是对当前 AI 应用开发范式的一次重要观察。

关键信息：数据背后的效率革命

根据 Harness 团队提供的实测数据，在对 OpenClacky、Claude Code、OpenClaw 和 Hermes 四家主流 Agent 进行横评时，成本差异呈现出惊人的数量级差距。这种差距并非源于模型本身的智力高低，而是直接由请求数量和Cache 命中率两个工程指标决定。

OpenClacky：总成本 $5.10，请求数 51 次，Cache 命中率 90.6%。
Claude Code：总成本 $5.49，请求数 70 次，Cache 命中率 95.2%。
OpenClaw：总成本 $15.70，请求数 81 次，Cache 命中率 88.7%。
Hermes：总成本 $30.14，请求数 218 次，Cache 命中率仅 60.3%。

数据显示，成本最高的 Hermes 方案比最低成本的 OpenClacky 方案贵了近 6 倍，其核心原因在于大量的重复请求未能命中缓存，导致每次交互都需重新计算 Token 费用。OpenClacky 作为一个具备 WebUI、命令行、长期记忆及技能库的全功能 Agent，能在保持功能完整性的同时实现 90.6% 的缓存命中率，证明了工程架构优化在降本中的巨大潜力。

为什么值得关注

从“模型中心”转向“工程中心”：过去开发者往往过度关注模型参数的增加或新模型的发布，而忽视了系统层面的效率优化。此案例表明，通过精细化的缓存策略、上下文管理以及请求合并，可以在不牺牲模型能力的前提下，大幅降低运营成本。
Ruby 重写的启示：作者提到这是经过两年踩坑并经过 Ruby 重写后的思考。这表明，成熟的 AI 应用需要稳定的后端语言支撑，以处理复杂的缓存逻辑和状态管理，而非仅仅依赖前端或脚本式的快速原型开发。
商业可行性的门槛：对于 B2B 或高频使用的 B2C AI 产品，90% 以上的缓存命中率可能是盈亏平衡的关键阈值。低于此阈值，高昂的 API 调用费用将迅速侵蚀利润空间。

可延展观察

缓存策略的通用性：OpenClacky 的缓存优化方案是否可复用于其他类型的 LLM 应用？例如，客服机器人、代码辅助工具或内容生成平台，是否也能通过类似的上下文指纹识别和缓存机制实现成本减半？
硬件与软件的协同：虽然本次讨论聚焦于软件层面的缓存，但随着 Razer Blade 18 等高端笔记本搭载新一代 Intel Core Ultra 芯片及 RTX 50 系列显卡，本地推理能力的提升是否会让“云端缓存”的重要性相对下降？或者说，混合架构（本地处理高频简单请求，云端处理复杂推理）将成为新的标准？
开源社区的工程沉淀：V2EX 等社区正在成为 AI 工程最佳实践的重要发源地。未来，我们可能会看到更多类似“开源 Agent 框架 + 高效缓存中间件”的组合出现，形成标准化的低成本 AI 应用开发栈。

Agent 成本战：90% 缓存命中率如何重塑 LLM 应用架构

引言

关键信息：数据背后的效率革命

为什么值得关注

可延展观察

参考来源