黑洞资源笔记

16:23 · Apr 14, 2026 · Tue

Apple Silicon 上跑大语言模型，MLX 框架速度总觉得不够快，speculative decoding 方案又非无损，精度和加速两难。

dflash-mlx 带来 DFlash 无损推测解码，为 MLX 优化专属解决方案。

基于 Block Diffusion 论文，一次生成 16 个 token 验证，结合自定义 Metal 内核实现 tape-replay rollback 和长上下文 JIT SDPA，Qwen3.5-9B 最高 4.1x 加速，接受率 89%+。

主要功能：

- 无损 DFlash 推测解码，支持 Qwen3.5 系列（4B/9B/27B/35B）；
- 自动 draft 模型解析，无需手动指定；
- 高精度 tape-replay rollback，保持长序列一致性；
- 长上下文优化（N>=1024），自定义 Metal 注意力内核；
- 流式输出，支持 CLI/Server 和 OpenAI 兼容客户端；
- 基准测试工具，一键对比 baseline vs DFlash 加速比。

pip install dflash-mlx 即装即用，完美适配 M 系列芯片，开发者/AI 爱好者必备。

10:24 · Apr 14, 2026 · Tue

xchat 一个群组最多才能容纳481人？

12:32 · Apr 8, 2026 · Wed

Caveman，一个 Claude Code 技能/插件和 Codex 插件，让Agent说话像原始人人——在保持完全技术准确性的同时，减少约 75% 的 token。

Caveman 仅影响输出 token——思考/推理 token 不受影响。Caveman 不会让大脑变小。Caveman 只会让嘴巴变小。最大收益是可读性和速度，成本节省只是附加优势。

2026 年 3 月发表的论文《Brevity Constraints Reverse Performance Hierarchies in Language Models》发现，将大型模型限制为简短回复在某些基准测试上的准确率提高了 26 个百分点，并完全颠倒了性能层级。冗长并不总是更好，有时少说话 = 更正确。| #插件

插件

12:29 · Apr 8, 2026 · Wed

巴菲特知识库

12:28 · Apr 8, 2026 · Wed

xicilion 响马大佬的新项目boxsh，一个受限的 POSIX shell，支持并发 JSON 行 RPC 模式，基于 dash 0.5.12 构建。

boxsh 被设计为可编程执行底层——一个可以通过简单 JSON 协议驱动的后端，适用于 AI 代理、构建系统或编排层，同时内置 Linux 命名空间隔离。其核心使用场景：

AI 代理命令沙箱——为代理提供一个可以执行任意 shell 命令的工作环境，同时严格控制其可见和可修改的内容：仅挂载所需目录，阻止外发网络，隔离 PID 树。

零成本目录分叉——将任何目录覆盖为写时复制工作区。代理可以自由读写；会话结束时检查上层差异，决定提交或丢弃——无需 git 索引，适用于任意目录。

会话检查点与分支——冻结当前会话的上层，在其上叠加新覆盖层，从同一点向两个方向分支，并比较结果。也可以将上层归档以便长期存储。

并行隔离工作者——在多个工作者间共享一个大型只读基础（如 node_modules 树、Python venv、编译后的 sysroot），每个工作者拥有独立可写上层，并发运行互不干扰。

部署/迁移演练——在覆盖层上运行 make install、数据库迁移或包升级，精确检查上层文件变化，再决定是否真正应用更改。

12:21 · Apr 8, 2026 · Wed

复旦大学的课程：人工智能的软件基础（复旦大学2026年春季学期）

徐辉老师的课，课程还在更新中，课件会逐步放出

12:19 · Apr 8, 2026 · Wed

Hermes Agent 从入门到精通 | #电子书

Hermes Agent 是 Nous Research 在 2026 年 2 月发布的开源 AI Agent 框架。它和 OpenClaw、Claude Code 走的路线不同：内建了自改进学习循环、三层记忆系统、Skill 自动创建和进化机制。

如果你读过《Harness Engineering》橙皮书, Hermes 是那本书讲的五个组件（指令/约束/反馈/记忆/编排）的第一次产品化实现。

电子书

02:53 · Apr 8, 2026 · Wed

新课更新 @hodonote

02:08 · Apr 8, 2026 · Wed

把参数丢进硬盘：Gemma 4 的轻量化魔法 | 帖子

提要：Gemma 4 E 系列模型通过 Per-Layer Embeddings 技术，将大量静态 Embedding 参数从显存移至磁盘。这种设计在不增加推理计算负担的前提下，极大地扩展了模型的知识容量。

Gemma 4 的 E2B 和 E4B 模型里，那个“E”指代 Embedding，与 MoE 模型里的 Experts 完全是两码事。这套架构玩了个很聪明的“移花接木”。

传统的 Transformer 在入口处用一个巨大的查找表。现在的 PLE 技术在每一层都塞进了更小的嵌入矩阵。这些参数虽然撑大了总参数量，却没增加计算成本。Embedding 本质上就是个查表过程，不需要 CUDA 内核去算矩阵乘法。

既然是查表，那就没必要非得挤在 VRAM 里。Token ID 一定，直接从磁盘或 CPU 内存里把对应的向量捞出来就行。有网友通过 llama.cpp 的参数配置，成功把 Embedding 权重丢到了 CPU，让显存占用瞬间降了下来。

这就像是给操作系统挂载了一个极其庞大的只读文件系统，虽然体积大，但它不参与指令流水线的实时运算，只有在需要时才触发一次磁盘 IO。

这种“静态知识”的容量上限在哪？如果把所有智力都塞进查表里，模型会不会变成一个只会背书的死记硬背机器？

02:06 · Apr 8, 2026 · Wed

程序员的肌肉萎缩：我们是在利用工具，还是在丧失直觉？ | 帖子

提要：本文探讨了开发者在使用 AI 工具时面临的一种隐形危机：随着习惯性将问题描述给 AI 并等待指令，人类在不确定性下自主构建假设、进行逻辑推演的“思维肌肉”正在发生萎缩。这种依赖并非单纯的效率提升，而是一种心智地图的模糊过程。

上个月，面对一个运行了两年的服务中出现的偶发网络超时问题，我发现自己竟然无法在没有 AI 协助的情况下完成调试。这种感觉很陌生，甚至有些惊悚。

这不像是在讨论某种技术瓶颈，更像是在描述一种肌肉萎缩。原本我能坐下来、通过观察日志、分析连接池、推演负载均衡逻辑来建立假设，但现在，我的第一反应是打开 Claude，把症状喂给它，然后机械地跟随它的建议走向死胡同。

这种现象很像 GPS 导航。你可以靠着它到达任何地方，但如果你长期依赖它，你就会失去对城市街道的记忆。当你突然失去信号时，你缺少的不仅仅是信息，而是那张通过亲自探索才建立起来的“心智地图”。

有网友提到，这其实是一种“认知债”或“理解债”的积累。当我们在代码库中不再进行深度的逻辑巡检，而是直接让 AI 寻找路径时，我们正在从“问题的解决者”退化为“指令的路由转发器”。这种转变是极其隐蔽且渐进的。

不过，也有人持有不同意见。有人认为这并非技能流失，而是一种抽象层级的跃迁，就像编译器取代了汇编语言一样，我们将精力转向了更高阶的系统设计。更有经验的开发者指出，关键在于你如何使用它：是把它当作“副驾驶”来验证你的假设，还是把它当作“司机”让你盲目跟随？

最值得警惕的不是工具本身，而是这种依赖性的发生往往没有预兆。当你在面对错误堆栈时，不再先思考 5 分钟，而是本能地按下复制粘贴键的那一刻，那个负责在不确定性中寻找规律的思维引擎，就已经开始停转了。

如果一个人从职业生涯的第一天起就习惯于这种“外包式思考”，当 AI 给出错误方向时，他还有能力识别出那是一堆毫无逻辑的幻觉吗？

02:04 · Apr 8, 2026 · Wed

Gemma 4：是模型进阶，还是工程灾难？| 帖子

提要：Gemma 4 的发布正处于权重释放与底层适配脱节的阵痛期。虽然模型潜力巨大，但推理引擎在处理其特有的逻辑结构时，正面临严重的循环与崩溃问题。

Gemma 4 的发布像是一次未经充分驱动优化的硬件上架。权重已经推送到仓库，但底层推理引擎的指令集还没对齐。

目前的体验更像是面对一堆乱码的错误日志。有人在 LM Studio 里看到随机的拼写错误或无法闭合的 <thought> 标签；有人发现模型会陷入无限循环的思维泥潭。这种不稳定性很大程度上源于量化（Quantization）和 KV Cache 旋转机制在 llama.cpp 等工具链上的适配滞后。如果把 Gemma 4 比作一个新的 CPU 架构，那么目前的开源生态正处于缺乏稳定驱动的阵痛期。

有网友提到 Qwen 系列在代码任务和工具调用上目前更稳健；也有人觉得 Gemma 4 的写作风格非常出色。这不仅是模型强弱的问题，也是工程链路的问题。当 KV Cache 旋转还没能完美运行，或者 4-bit 量化导致推理逻辑出现熵增时，再强的权重也只是堆积的参数。

更深层的争论在于协作模式。有观点认为大厂只需发布权重，适配是开源社区的事；但也有人觉得，如果 Google 真的想推动生态，就该像对待核心产品一样去优化集成度。目前这种“重模型、轻驱动”的状态，让整个生态看起来像个正在着火的垃圾场，虽然偶尔能烧出点惊艳的东西。

02:03 · Apr 8, 2026 · Wed

当学术论文沦为概率引擎的输出：为什么我们正在失去“独特的错误” | 帖子

提要：AI 正在将大学写作变成一种“语言单质化”的过程。由于评分标准倾向于逻辑严密、语法无误的成品，学生们正自觉地利用 AI 抹除个人特质，追求一种标准化、甚至有些空洞的“专业感”。

现在的学术论文读起来，像是在听一个音准完美但毫无灵魂的乐器。

教授们怀念那些充满破碎句式、过度雄心勃勃的隐喻，甚至是偶尔出现的语法瑕疵。因为那些“错误”曾是学生独特视角的信号灯。而现在，大家都在追求一种“灰色声音”：结构教科书化，措辞无可挑剔，但灵魂被磨平了。

这其实是一个极其简单的激励问题。有网友提到，如果评分标准奖励的是“清晰、结构良好的散文”，那么学生没有理由拒绝 AI。正如一位学生所言，既然写得自己可能拿 B+，而用 AI 优化一下能稳拿 A，为什么不选后者？这本质上是 Goodhart's Law 的体现：当一个指标变成目标时，它就不再是一个好指标了。

有人觉得这像极了摄影术发明后的抽象派绘画——既然相机能捕捉现实，艺术家只能转向更“人化”的表达。但这种防御手段在当前的语言模型面前显得有些无力。有观点认为，只要给 AI 提供足够的个人样本，通过微调提示词，就能完美复制你的语气、甚至包括你特有的拼写习惯。

更有意思的是一种职业化的趋势。有网友分享说，在某些工作环境中，使用 AI 进行“润色”甚至是一种强制指令。大家都在利用 AI 抹除人类的缺陷，呈现出一种一致、专业但枯燥的外向声音。这种标准化的力量正在悄无声息地重塑我们的沟通协议。

这种技术进步确实像是在用高效的编译器替换原始的手写汇编。它极大地节省了时间，但也带来了一个令人不安的副作用：我们的写作肌肉正在萎缩。如果思考、搜集和整理的过程都被外包给了概率引擎，那么剩下的只是一层精美的包装。

当所有人都在追求“正确”时，真正的原创性可能正处于一种难以被捕获的低频状态。我们是否还能在算法的覆盖范围之外，找到某种无法被模拟的、属于人类的扰动？

02:01 · Apr 8, 2026 · Wed

当 AI Agent 拥有了“克隆”大脑：超越容器的沙盒革命 | 帖子

提要：本文探讨了一种新型虚拟机技术，通过内存写时复制（CoW）技术实现亚秒级的环境克隆。这不仅仅是性能的提升，更是为 AI Agent 提供了一种“并行决策”的物理基础：让智能体能在多个完全相同的隔离环境中同时尝试不同的代码方案，并最终只采纳最优解。

既然要讨论 AI Agent 的未来，就不能只盯着模型本身。现在的开发者都在纠结如何优化启动延迟，但真正的突破口在于环境的“可分身性”。

想象一下，你的编程 Agent 面对一个复杂的 Bug，它有十种修复思路。如果它能在 500 毫秒内克隆出十个完全一致的 Debian 环境，在每个环境中分别应用不同的补丁、运行测试、观察结果，最后只把成功的那条路径反馈给你——这种“并行演化”的能力，才是下一代开发范式的核心。

这不再是简单的容器隔离。有网友提到，现有的容器技术在内核级攻击面前并不安全。Freestyle 走的是另一条路：利用 MicroVM 技术，提供接近裸金属的性能，同时支持 eBPF 和嵌套虚拟化。这种架构让 VM 不再是一个死板的盒子，而是一个可以随需分叉、瞬间重构的动态实体。

实现这种“瞬时分身”的技术难点在于内存。如果只是简单的磁盘镜像拷贝，哪怕是 8GB 的内存也无法在 500 毫秒内完成。开发者采用了极其硬核的写时复制（CoW）技术，使得克隆时间与虚拟机的大小几乎无关（O(1) 复杂度）。即便是一个拥有庞大状态的 Postgres 数据库或复杂的浏览器会话，也能实现近乎实时的快照和分叉。

不过，这种能力的边界也很明显。有观点认为，随着 Agent 的自主性增强，安全风险正在从“代码注入”转向“环境控制”。如果 Agent 拥有了对计算机的完全控制权，它可能会在无意中执行破坏性的操作。虽然开发者建议将 Agent 视为不可信实体，并将其运行在独立的网络命名空间内，但这种“信任边界”的界定依然模糊。

现在的争论焦点在于：我们究竟需要一个轻量级的沙盒，还是一个功能完备的、甚至能跑 K3s 的强大虚拟机？当技术复杂度提升到足以支持大规模分叉时，它也就从一个简单的工具，变成了一个承载智能体自主决策的物理实验室。

目前的挑战依然存在，比如跨节点的快速迁移还处于研究阶段，且对于长期运行的任务，如何平衡成本与持久化也是个难题。