Continuous batching:本文梳理了大型语言模型(LLM)推理效率的核心技术——连续批量处理(Continuous Batching)。从基础的注意力机制和KV缓存出发,逐步揭示了如何优化计算吞吐量,提升多用户同时服务的性能。

首先,LLM是通过预测下一个词元(token)实现文本生成的,但每生成一个词都需大量计算,尤其是注意力机制中计算查询(Q)、键(K)、值(V)三者之间的复杂关系,复杂度随序列长度平方增长。为了高效推理,引入了KV缓存:已计算过的键值对被存储,生成新词时无需重复计算,大幅减少计算量。

面对长提示词(prompt)超出显存限制,模型采用分块预填充(Chunked Prefill)策略,分批处理输入,结合KV缓存保持上下文信息完整,解决了显存瓶颈。

传统批量处理要求所有输入长度一致,需大量补齐(padding),导致资源浪费和效率下降。连续批处理突破这一限制,将多个请求的词元按序拼接,利用注意力掩码控制不同句子间不互相干扰,实现“锯齿形”批量处理(ragged batching)。结合动态调度,将已完成的请求即时替换为新请求,保持GPU利用率最大化。

总结来说,连续批处理整合了KV缓存、分块预填充和锯齿形批处理三大技术,极大提升了模型推理的吞吐量和效率,使得像ChatGPT这样的大规模服务能高效支持成千上万的并发用户。

这不仅是对模型计算逻辑的优化,更是架构设计上的创新,体现了在有限资源下满足海量实时请求的智慧。未来,随着缓存管理和调度策略的进一步演进,LLM推理的效率还将持续提升。
通义实验室推出Z-Image——一款仅60亿参数、性能卓越的图像生成基础模型。它通过系统性优化,证明了无需庞大模型规模,也能实现顶尖的真实感图像生成和中英文文本渲染,效果媲美领先商业模型。

Z-Image参数量仅为6亿,却能生成媲美十倍规模模型的高质量照片级真实图像,且能在普通显卡(<16GB显存)上流畅运行,极大降低了高端图像生成的门槛。目前已公开发布Z-Image-Turbo(生成版),编辑版Z-Image-Edit即将推出。

架构上,Z-Image采用单流扩散Transformer设计,将文本、图像条件信息与噪声潜变量统一编码为一条序列,简化模型结构,提升计算效率和表现力。

内部ELO竞技测试显示,Z-Image在开放源代码模型中处于领先地位,且与商业巨头模型竞争力强劲。

Z-Image-Turbo在细节、光影、质感控制上表现优异,高清真实且具备良好审美,生成效果兼顾真实感与艺术性。

特别值得一提的是它的双语文本渲染能力:不仅能准确呈现中英文文字,还能在海报设计中展现强大的构图与排版能力,即使小字体环境下也能保证文本清晰且美观。

Z-Image拥有丰富的世界知识与文化认知,能够精准生成名胜古迹、知名人物及特定实物,体现深厚的语义理解力。

内置的提示增强器(Prompt Enhancer)通过结构化推理注入逻辑与常识,支持处理复杂任务,如“鸡兔同笼”问题或古诗意境的视觉化,编辑时也能根据模糊指令推断用户意图,确保结果合乎逻辑。

编辑版Z-Image-Edit支持复杂指令执行,能同时修改与亮化背景,精准调整指定位置文本,并在大幅变换场景下保持人物一致性,实现对图像元素的细粒度控制。

GitHub | ModelScope | HuggingFace | Z-Image gallry
有人说用“vibe coding”(凭感觉用AI写代码)能直接做出上线的生产级应用,这是不现实的。生产环境的软件必然复杂,需要大量代码的编写和维护,单靠写prompt根本撑不起。

AI确实能帮你快速生成代码片段,甚至能做一些简单小工具、小项目,或者快速搭建原型,提升开发效率。但当涉及到真正的生产级应用,边界条件、集成、安全、性能和稳定性等问题,都需要工程师的严谨设计、测试和持续维护。

那些说“vibe coding”能做出SAP、Salesforce这样的大型系统,显然是夸张了。相反,经验丰富的工程师利用AI辅助,能快速完成70%-80%的代码工作,但他们依然需要深入理解业务、规范开发流程、严格测试和持续重构。

成功案例确实存在,比如一些小型APP或合规项目用AI辅助开发并上线,但这更多是建立在开发者本身具备扎实的基础和工程能力上。完全靠AI和prompt从零开始,几乎不可能保证产品质量和稳定性。

AI是加速器,不是替代品。真正的生产级软件开发,离不开架构设计、代码审查、测试覆盖和持续迭代。那些只靠prompt写代码,却指望一劳永逸的人,注定会碰壁。

生产级代码的核心,是对复杂性的掌控,而不是对AI的盲目信任。AI帮你写代码,工程师帮你撑起整个系统。
现代开发离不开终端和浏览器的频繁切换:查文档、预览文件、监控系统、调用 AI 助手等。

Wave Terminal
是一款开源跨平台终端,将传统终端功能与图形化操作完美结合,支持文件预览、网页浏览和智能 AI 辅助,所有操作都能在终端内完成,极大提升工作流效率。

Wave 支持 macOS、Windows 和 Linux,功能丰富包括:

- 灵活拖拽布局,管理多个终端、编辑器、浏览器和 AI 助手窗口;
- 内置编辑器支持远程文件编辑和语法高亮;
- 文件预览支持图片、视频、PDF、Markdown、CSV 等多种格式;
- AI 助手能理解终端上下文,辅助调试和文件操作;
- 远程连接一键直达,兼顾安全的凭证管理;
- 丰富自定义主题及命令行工作空间管理。
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeekMath-V2代表了数学推理领域的重要突破。当前大型语言模型虽然在数学竞赛中表现优异,但仅靠最终答案的准确性无法保证推理过程的严谨性。DeepSeekMath-V2提出了“自我验证”机制,训练出一个高精度、可信赖的定理证明验证器,并以此作为奖励模型,推动生成器不断发现并修正自身证明中的错误,提升推理质量。

该方法不仅解决了传统强化学习模型忽视推理过程的问题,还通过扩大验证计算能力,自动标注新的复杂证明,持续增强验证器的能力。最终,DeepSeekMath-V2在IMO 2025、CMO 2024和Putnam 2024等顶级竞赛中取得了金牌水平的成绩,Putnam得分高达118/120,显示出强大的数学推理和证明能力。

这一成果表明,迈向自我验证的数学推理是提升AI数学能力的关键方向。它不仅推动了数学AI系统在科学研究中的应用潜力,也为解决开放性数学难题提供了新的思路和工具。尽管仍有挑战,DeepSeekMath-V2为未来可解释、可靠的数学AI奠定了坚实基础。
LaurieWired分享了一个实用技巧:通过合理格式化,你可以把普通的消费级SSD“升级”为接近企业级的耐用度,只需牺牲约5%的容量,就能获得约10倍的写入寿命提升。| 帖子 | #技巧

以Crucial MX500 1TB为例,默认耐用度是0.2 DWPD(每天写入全盘0.2次),而同样闪存颗粒的Micron 5300 PRO 960GB企业级SSD耐用度是1.5 DWPD。企业级SSD很大程度上其实是超额预留空间更多的消费盘,厂商刻意用更多预留区来换取更高耐用度,因为消费者通常偏好更大容量,却不太关注寿命。

Laurie的做法是新买SSD后,只格式化90%-95%的空间,留出一部分不分区不使用,等于人为增加了过度预留区。对于视频编辑等写入量巨大的场景,这样的空间换耐用度的策略非常划算,能显著延长盘的寿命。

其他网友补充指出,很多消费级SSD会在使用超过约50%容量时,从快速的SLC缓存模式切换到更慢的TLC或QLC,导致性能和延迟下降。留足空闲空间不仅延长寿命,也能保持性能稳定。还有人提醒,企业级SSD的电源断电保护和固件优化也更优秀,适合更苛刻的服务器环境。

这背后反映的是存储设计的一个核心原则:容量和耐用度经常是此消彼长的关系。对大多数普通用户来说,过度预留带来的耐用提升可能用不上,但对专业用户和重负载场景,合理减少可用容量换取耐用度,是一条高效且省钱的“升级”路径。

对消费者来说,理解SSD背后的工作机制和厂商策略,能帮助更聪明地使用硬盘,避免性能骤降和过早损耗。未来存储设备设计若能更开放、更易拆卸替换,像企业级的U.2、EDSFF接口那样,将大幅提升用户体验和设备寿命
Gemini 现在能生成完全互动的图像,覆盖任何主题。只需选中图中任意区域,系统即可给出详细解读,成为极其强大的学习工具。相比传统枯燥的文本,互动图像让复杂知识一目了然,极大提升了学习效率和体验。| 帖子

这一技术不仅适合学生,也能改变技术文档和专业资料的呈现方式。想象一下,开发者可以通过点击代码架构图,快速理解项目结构,无需翻阅厚重的说明书;博物馆、科研机构也能借此打造沉浸式的虚拟展览和深度探讨空间。

Gemini通过即时生成“微型网站”模式,AI不再只是引流传统网页,而是在用户需求点上直接构建内容,彻底颠覆信息获取方式。尽管目前交互功能仍有些限制,部分主题支持有限,但这已是未来教育和知识传播的关键方向。

Google的这项创新悄然推动着学习方式的变革,传统教科书开始显得过时。未来,知识不只是读出来,更是“点”出来,触摸出来,深度理解出来。
Ilya Shabanov分享了一个高效写作硕士论文的方法,强调AI作为辅助工具,而非代写,帮助克服写作焦虑,理清逻辑,迅速形成初稿:

1. 收集已有材料:上传自己的旧稿、笔记,或者领域内的论文,甚至写个粗略大纲。
2. 梳理叙述结构:让AI帮你用一句五词短句总结每段内容,调整顺序,掌控整体故事线。
3. 拓展大纲:让AI把每句话展开成段落提纲,包括主题句、数条支持观点及总结句,形成逻辑清晰的蓝图。
4. 引入真实研究:用工具检索相关文献,提炼关键事实,确保内容有据可依。
5. 生成正式段落:将核实过的事实输入AI,产出标准、引用齐全的学术段落,逐段完成完整初稿。

这一流程让写作不再从零开始,减少拖延和迷茫,真正做到“你掌控叙述,AI帮你表达”,保持原创思想和学术诚信。

关于伦理,Shabanov认为:AI只是帮你梳理和表达思想,内容和方向由你决定,且每一步都经过事实核查,最终成果属于你自己。质疑者指出,写作过程中的思考与挣扎本身就是学习的关键,完全依赖AI可能削弱理解和原创性。

这场讨论反映了学术写作正迎来AI辅助的新范式:如何平衡效率与学术诚实,如何在利用AI带来的便利时,保持深度思考和知识内化,是每个学者必须认真面对的问题。
帖子 | 你不一定需要传统网络配置就能连接Linux虚拟机。

无需IP地址,无需SSH密钥,无需防火墙规则,也不必配置路由表。

如果虚拟机和宿主机在同一台物理机器上,TCP/IP协议反而成了多余负担。

这就是AF_VSOCK——Linux内核中的一种特殊地址族,专为Hypervisor和虚拟机间通信设计。它像一根穿透虚拟机墙壁的“管道”,不再用IP地址,而是用Context ID(CID)标识:宿主机通常是CID 2,虚拟机获得唯一CID,如3。内核负责转发数据,速度极快。

作者正在做一个演示项目,展示如何用vsock跑高性能gRPC,数据不经过任何网络包,延迟几乎为零。服务端跑在虚拟机里(C++),客户端跑在宿主机上。后续会开源代码并写深度教程,欢迎关注。

为什么gRPC+vsock这么酷?
- 极低延迟
- 无需IP地址,省去DHCP、端口转发、防火墙规则配置
- 无网络包暴露,更安全,几乎无外部攻击面

vsock让你能在相对封闭的环境里发送结构化请求,这为构建安全、可靠的“密闭盒子”应用打开了新思路。

有朋友提到,串口也能做虚拟机通信,但串口缺乏高层API支持,不易集成现代框架。vsock则更自然地适配gRPC这类高级通信模式。

需要澄清的是,vsock并非模拟TCP,它是另一种通信技术,但使用体验很像TCP socket,端口号(如9999)仍然是通用的服务标识符。

性能上,vsock减少了网络协议栈开销,适合大数据量、高频交互,期待未来能看到更多性能对比数据。

它支持KVM,但理论上非KVM虚拟化环境也能用,KVM只是性能加速器。

vsock不仅被QEMU、Xen支持,还有nc-vsock、xpra等实用工具,应用范围正在逐步扩大。

安全方面,因无外部网络流量,攻击面更小,但仍需妥善管理虚拟机间通信权限。

这是一条通向更简洁、高效、安全虚拟机通信的道路,值得系统开发者和运维工程师深入了解和尝试。
Back to Top