黑洞资源笔记
11:10 · Dec 1, 2025 · Mon
一篇详细介绍提示词缓存的长文 |
blog
这篇文章不仅从工程原理角度详细介绍了 prompt‑caching(paged attention + prefix caching)的工作机制,还给出了实际工程中如何设计 prompt/上下文结构来提升缓存命中率、降低计算成本/延迟的建议。
Home