黑洞资源笔记

本地大模型调优指南：从跑通到跑爽的进阶地图 | blog

很多人玩本地大模型（Local LLM）还停留在“能跑就行”的阶段，其实通过合理的参数调优，性能翻倍甚至画质/逻辑提升并非难事。这篇指南把繁杂的 llama.cpp 调优逻辑拆解成了普通人也能听懂的硬核干货。

核心逻辑：本地推理的瓶颈不在算力，而在显存（VRAM）和内存带宽。
- 显存是第一生产力：模型能全塞进 VRAM 就绝不留给内存。
- 内存带宽决定生死：对于 MoE 架构（如 DeepSeek），内存频率（XMP/EXPO）直接决定了生成速度，开启 BIOS 里的内存超频可能比换显卡更有用。

深度避坑与实操：
1. 显存分配：使用 --fit on 让系统自动探测并最大化利用显存，但记得留出 512MB 以上的缓冲空间，防止长文本推理时 OOM 崩溃。
2. 缓存量化：通过 -ctk q8_0 压缩 KV Cache，能省下大量显存给模型层，这是低显存跑大模型的“白嫖”神技。
3. CPU 调度：Intel 用户记得用 taskset 屏蔽 E 核（小核），只用 P 核（大核）跑，速度能稳升 20%。
4. 投机采样：MTP 技术是当下的提速王牌，通过一个小模型“预判”大模型的输出，能实现 2 倍以上的生成速度。

调优不是玄学，是在有限的显存池里，平衡模型权重、上下文长度和推理速度的资源博弈。