黑洞资源笔记

06:19 · Nov 28, 2025 · Fri

Continuous batching：本文梳理了大型语言模型（LLM）推理效率的核心技术——连续批量处理（Continuous Batching）。从基础的注意力机制和KV缓存出发，逐步揭示了如何优化计算吞吐量，提升多用户同时服务的性能。

首先，LLM是通过预测下一个词元（token）实现文本生成的，但每生成一个词都需大量计算，尤其是注意力机制中计算查询（Q）、键（K）、值（V）三者之间的复杂关系，复杂度随序列长度平方增长。为了高效推理，引入了KV缓存：已计算过的键值对被存储，生成新词时无需重复计算，大幅减少计算量。

面对长提示词（prompt）超出显存限制，模型采用分块预填充（Chunked Prefill）策略，分批处理输入，结合KV缓存保持上下文信息完整，解决了显存瓶颈。

传统批量处理要求所有输入长度一致，需大量补齐（padding），导致资源浪费和效率下降。连续批处理突破这一限制，将多个请求的词元按序拼接，利用注意力掩码控制不同句子间不互相干扰，实现“锯齿形”批量处理（ragged batching）。结合动态调度，将已完成的请求即时替换为新请求，保持GPU利用率最大化。

总结来说，连续批处理整合了KV缓存、分块预填充和锯齿形批处理三大技术，极大提升了模型推理的吞吐量和效率，使得像ChatGPT这样的大规模服务能高效支持成千上万的并发用户。

这不仅是对模型计算逻辑的优化，更是架构设计上的创新，体现了在有限资源下满足海量实时请求的智慧。未来，随着缓存管理和调度策略的进一步演进，LLM推理的效率还将持续提升。

06:15 · Nov 28, 2025 · Fri

通义实验室推出Z-Image——一款仅60亿参数、性能卓越的图像生成基础模型。它通过系统性优化，证明了无需庞大模型规模，也能实现顶尖的真实感图像生成和中英文文本渲染，效果媲美领先商业模型。

Z-Image参数量仅为6亿，却能生成媲美十倍规模模型的高质量照片级真实图像，且能在普通显卡（<16GB显存）上流畅运行，极大降低了高端图像生成的门槛。目前已公开发布Z-Image-Turbo（生成版），编辑版Z-Image-Edit即将推出。

架构上，Z-Image采用单流扩散Transformer设计，将文本、图像条件信息与噪声潜变量统一编码为一条序列，简化模型结构，提升计算效率和表现力。

内部ELO竞技测试显示，Z-Image在开放源代码模型中处于领先地位，且与商业巨头模型竞争力强劲。

Z-Image-Turbo在细节、光影、质感控制上表现优异，高清真实且具备良好审美，生成效果兼顾真实感与艺术性。

特别值得一提的是它的双语文本渲染能力：不仅能准确呈现中英文文字，还能在海报设计中展现强大的构图与排版能力，即使小字体环境下也能保证文本清晰且美观。

Z-Image拥有丰富的世界知识与文化认知，能够精准生成名胜古迹、知名人物及特定实物，体现深厚的语义理解力。

内置的提示增强器（Prompt Enhancer）通过结构化推理注入逻辑与常识，支持处理复杂任务，如“鸡兔同笼”问题或古诗意境的视觉化，编辑时也能根据模糊指令推断用户意图，确保结果合乎逻辑。

编辑版Z-Image-Edit支持复杂指令执行，能同时修改与亮化背景，精准调整指定位置文本，并在大幅变换场景下保持人物一致性，实现对图像元素的细粒度控制。

GitHub | ModelScope | HuggingFace | Z-Image gallry

06:10 · Nov 28, 2025 · Fri

有人说用“vibe coding”（凭感觉用AI写代码）能直接做出上线的生产级应用，这是不现实的。生产环境的软件必然复杂，需要大量代码的编写和维护，单靠写prompt根本撑不起。

AI确实能帮你快速生成代码片段，甚至能做一些简单小工具、小项目，或者快速搭建原型，提升开发效率。但当涉及到真正的生产级应用，边界条件、集成、安全、性能和稳定性等问题，都需要工程师的严谨设计、测试和持续维护。

那些说“vibe coding”能做出SAP、Salesforce这样的大型系统，显然是夸张了。相反，经验丰富的工程师利用AI辅助，能快速完成70%-80%的代码工作，但他们依然需要深入理解业务、规范开发流程、严格测试和持续重构。

成功案例确实存在，比如一些小型APP或合规项目用AI辅助开发并上线，但这更多是建立在开发者本身具备扎实的基础和工程能力上。完全靠AI和prompt从零开始，几乎不可能保证产品质量和稳定性。

AI是加速器，不是替代品。真正的生产级软件开发，离不开架构设计、代码审查、测试覆盖和持续迭代。那些只靠prompt写代码，却指望一劳永逸的人，注定会碰壁。

生产级代码的核心，是对复杂性的掌控，而不是对AI的盲目信任。AI帮你写代码，工程师帮你撑起整个系统。

06:08 · Nov 28, 2025 · Fri

现代开发离不开终端和浏览器的频繁切换：查文档、预览文件、监控系统、调用 AI 助手等。

Wave Terminal 是一款开源跨平台终端，将传统终端功能与图形化操作完美结合，支持文件预览、网页浏览和智能 AI 辅助，所有操作都能在终端内完成，极大提升工作流效率。

Wave 支持 macOS、Windows 和 Linux，功能丰富包括：

- 灵活拖拽布局，管理多个终端、编辑器、浏览器和 AI 助手窗口；
- 内置编辑器支持远程文件编辑和语法高亮；
- 文件预览支持图片、视频、PDF、Markdown、CSV 等多种格式；
- AI 助手能理解终端上下文，辅助调试和文件操作；
- 远程连接一键直达，兼顾安全的凭证管理；
- 丰富自定义主题及命令行工作空间管理。

06:06 · Nov 28, 2025 · Fri

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeekMath-V2代表了数学推理领域的重要突破。当前大型语言模型虽然在数学竞赛中表现优异，但仅靠最终答案的准确性无法保证推理过程的严谨性。DeepSeekMath-V2提出了“自我验证”机制，训练出一个高精度、可信赖的定理证明验证器，并以此作为奖励模型，推动生成器不断发现并修正自身证明中的错误，提升推理质量。

该方法不仅解决了传统强化学习模型忽视推理过程的问题，还通过扩大验证计算能力，自动标注新的复杂证明，持续增强验证器的能力。最终，DeepSeekMath-V2在IMO 2025、CMO 2024和Putnam 2024等顶级竞赛中取得了金牌水平的成绩，Putnam得分高达118/120，显示出强大的数学推理和证明能力。

这一成果表明，迈向自我验证的数学推理是提升AI数学能力的关键方向。它不仅推动了数学AI系统在科学研究中的应用潜力，也为解决开放性数学难题提供了新的思路和工具。尽管仍有挑战，DeepSeekMath-V2为未来可解释、可靠的数学AI奠定了坚实基础。

06:03 · Nov 28, 2025 · Fri

LaurieWired分享了一个实用技巧：通过合理格式化，你可以把普通的消费级SSD“升级”为接近企业级的耐用度，只需牺牲约5%的容量，就能获得约10倍的写入寿命提升。| 帖子 | #技巧

以Crucial MX500 1TB为例，默认耐用度是0.2 DWPD（每天写入全盘0.2次），而同样闪存颗粒的Micron 5300 PRO 960GB企业级SSD耐用度是1.5 DWPD。企业级SSD很大程度上其实是超额预留空间更多的消费盘，厂商刻意用更多预留区来换取更高耐用度，因为消费者通常偏好更大容量，却不太关注寿命。

Laurie的做法是新买SSD后，只格式化90%-95%的空间，留出一部分不分区不使用，等于人为增加了过度预留区。对于视频编辑等写入量巨大的场景，这样的空间换耐用度的策略非常划算，能显著延长盘的寿命。

其他网友补充指出，很多消费级SSD会在使用超过约50%容量时，从快速的SLC缓存模式切换到更慢的TLC或QLC，导致性能和延迟下降。留足空闲空间不仅延长寿命，也能保持性能稳定。还有人提醒，企业级SSD的电源断电保护和固件优化也更优秀，适合更苛刻的服务器环境。

这背后反映的是存储设计的一个核心原则：容量和耐用度经常是此消彼长的关系。对大多数普通用户来说，过度预留带来的耐用提升可能用不上，但对专业用户和重负载场景，合理减少可用容量换取耐用度，是一条高效且省钱的“升级”路径。

对消费者来说，理解SSD背后的工作机制和厂商策略，能帮助更聪明地使用硬盘，避免性能骤降和过早损耗。未来存储设备设计若能更开放、更易拆卸替换，像企业级的U.2、EDSFF接口那样，将大幅提升用户体验和设备寿命

技巧

06:01 · Nov 28, 2025 · Fri

Gemini 现在能生成完全互动的图像，覆盖任何主题。只需选中图中任意区域，系统即可给出详细解读，成为极其强大的学习工具。相比传统枯燥的文本，互动图像让复杂知识一目了然，极大提升了学习效率和体验。| 帖子

这一技术不仅适合学生，也能改变技术文档和专业资料的呈现方式。想象一下，开发者可以通过点击代码架构图，快速理解项目结构，无需翻阅厚重的说明书；博物馆、科研机构也能借此打造沉浸式的虚拟展览和深度探讨空间。

Gemini通过即时生成“微型网站”模式，AI不再只是引流传统网页，而是在用户需求点上直接构建内容，彻底颠覆信息获取方式。尽管目前交互功能仍有些限制，部分主题支持有限，但这已是未来教育和知识传播的关键方向。

Google的这项创新悄然推动着学习方式的变革，传统教科书开始显得过时。未来，知识不只是读出来，更是“点”出来，触摸出来，深度理解出来。

05:56 · Nov 28, 2025 · Fri

Ilya Shabanov分享了一个高效写作硕士论文的方法，强调AI作为辅助工具，而非代写，帮助克服写作焦虑，理清逻辑，迅速形成初稿：

1. 收集已有材料：上传自己的旧稿、笔记，或者领域内的论文，甚至写个粗略大纲。
2. 梳理叙述结构：让AI帮你用一句五词短句总结每段内容，调整顺序，掌控整体故事线。
3. 拓展大纲：让AI把每句话展开成段落提纲，包括主题句、数条支持观点及总结句，形成逻辑清晰的蓝图。
4. 引入真实研究：用工具检索相关文献，提炼关键事实，确保内容有据可依。
5. 生成正式段落：将核实过的事实输入AI，产出标准、引用齐全的学术段落，逐段完成完整初稿。

这一流程让写作不再从零开始，减少拖延和迷茫，真正做到“你掌控叙述，AI帮你表达”，保持原创思想和学术诚信。

关于伦理，Shabanov认为：AI只是帮你梳理和表达思想，内容和方向由你决定，且每一步都经过事实核查，最终成果属于你自己。质疑者指出，写作过程中的思考与挣扎本身就是学习的关键，完全依赖AI可能削弱理解和原创性。

这场讨论反映了学术写作正迎来AI辅助的新范式：如何平衡效率与学术诚实，如何在利用AI带来的便利时，保持深度思考和知识内化，是每个学者必须认真面对的问题。

05:21 · Nov 28, 2025 · Fri

帖子 | 你不一定需要传统网络配置就能连接Linux虚拟机。

无需IP地址，无需SSH密钥，无需防火墙规则，也不必配置路由表。

如果虚拟机和宿主机在同一台物理机器上，TCP/IP协议反而成了多余负担。

这就是AF_VSOCK——Linux内核中的一种特殊地址族，专为Hypervisor和虚拟机间通信设计。它像一根穿透虚拟机墙壁的“管道”，不再用IP地址，而是用Context ID（CID）标识：宿主机通常是CID 2，虚拟机获得唯一CID，如3。内核负责转发数据，速度极快。

作者正在做一个演示项目，展示如何用vsock跑高性能gRPC，数据不经过任何网络包，延迟几乎为零。服务端跑在虚拟机里（C++），客户端跑在宿主机上。后续会开源代码并写深度教程，欢迎关注。

为什么gRPC+vsock这么酷？
- 极低延迟
- 无需IP地址，省去DHCP、端口转发、防火墙规则配置
- 无网络包暴露，更安全，几乎无外部攻击面

vsock让你能在相对封闭的环境里发送结构化请求，这为构建安全、可靠的“密闭盒子”应用打开了新思路。

有朋友提到，串口也能做虚拟机通信，但串口缺乏高层API支持，不易集成现代框架。vsock则更自然地适配gRPC这类高级通信模式。

需要澄清的是，vsock并非模拟TCP，它是另一种通信技术，但使用体验很像TCP socket，端口号（如9999）仍然是通用的服务标识符。

性能上，vsock减少了网络协议栈开销，适合大数据量、高频交互，期待未来能看到更多性能对比数据。

它支持KVM，但理论上非KVM虚拟化环境也能用，KVM只是性能加速器。

vsock不仅被QEMU、Xen支持，还有nc-vsock、xpra等实用工具，应用范围正在逐步扩大。

安全方面，因无外部网络流量，攻击面更小，但仍需妥善管理虚拟机间通信权限。

这是一条通向更简洁、高效、安全虚拟机通信的道路，值得系统开发者和运维工程师深入了解和尝试。