黑洞资源笔记

Continuous batching：本文梳理了大型语言模型（LLM）推理效率的核心技术——连续批量处理（Continuous Batching）。从基础的注意力机制和KV缓存出发，逐步揭示了如何优化计算吞吐量，提升多用户同时服务的性能。

首先，LLM是通过预测下一个词元（token）实现文本生成的，但每生成一个词都需大量计算，尤其是注意力机制中计算查询（Q）、键（K）、值（V）三者之间的复杂关系，复杂度随序列长度平方增长。为了高效推理，引入了KV缓存：已计算过的键值对被存储，生成新词时无需重复计算，大幅减少计算量。

面对长提示词（prompt）超出显存限制，模型采用分块预填充（Chunked Prefill）策略，分批处理输入，结合KV缓存保持上下文信息完整，解决了显存瓶颈。

传统批量处理要求所有输入长度一致，需大量补齐（padding），导致资源浪费和效率下降。连续批处理突破这一限制，将多个请求的词元按序拼接，利用注意力掩码控制不同句子间不互相干扰，实现“锯齿形”批量处理（ragged batching）。结合动态调度，将已完成的请求即时替换为新请求，保持GPU利用率最大化。

总结来说，连续批处理整合了KV缓存、分块预填充和锯齿形批处理三大技术，极大提升了模型推理的吞吐量和效率，使得像ChatGPT这样的大规模服务能高效支持成千上万的并发用户。

这不仅是对模型计算逻辑的优化，更是架构设计上的创新，体现了在有限资源下满足海量实时请求的智慧。未来，随着缓存管理和调度策略的进一步演进，LLM推理的效率还将持续提升。