黑洞资源笔记

5 hours ago

强化学习教程：Hands-On Modern RL，现代强化学习实战指南：涵盖经典控制、LLM 后训练、RLVR 与多模态智能体 | 在线阅读 | github | #电子书 #指南 #教程

2016 年，AlphaGo 击败李世石，强化学习第一次震撼公众。2022 年 ChatGPT 发布，人们发现 RL 正是让大语言模型从"能说话"变成"说好话"的关键技术。从 DeepSeek-R1 到各类开源对齐模型，RLHF、DPO、GRPO 等算法已经深刻地重塑了整个 AI 行业。

然而，市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过，专门的 RL 教材又停留在传统框架，对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师，不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书，就是为了填补这道鸿沟。

这本书代表了我们的尝试——让现代强化学习变得平易近人，用代码、数学和直觉的融合来教会人们核心概念。

一种"先动手、后理论"的学习路径

许多教科书先讲完 MDP 的全部性质，再讲贝尔曼方程，最后才允许你碰一行代码。在这本书中，你将从第一章的第一行代码开始训练一个智能体。当你亲眼看到 CartPole 的小车从摇摇晃晃到稳稳站立，亲手用 DPO 让一个大模型学会"说好话"，再回过头理解背后的数学时，学习过程会更加自然，理解也会更加持久。

每一章都遵循一个四步循环：先给你一段可运行的代码，让你获得直接经验；然后引导你关注训练曲线上的关键现象；接着在具备直觉的基础上讲解数学原理；最后用理论重新解读之前的现象，完成从直觉到形式化的闭环。

本书的每一章都包含可运行的代码示例。强化学习中的许多直觉只能通过试错来建立——调一调学习率，观察 reward 曲线的振荡；改一改 clip 参数，看看策略是否会崩溃。这些经验无法仅靠阅读公式来获得。

本书面向学生、工程师和研究人员。不需要过往的深度学习或机器学习背景，只需基本的 Python 编程能力、线性代数（矩阵运算）、微积分（偏导数、链式法则）和概率论基础（期望、条件概率）。大多数时候，我们会优先考虑直觉和想法，而不是数学的严谨性。

电子书指南教程

5 hours ago

Realmbird正在写Deepseek 新架构mHC的系列文章，目前完成了一篇。| blog

流形约束超连接（Manifold-Constrained Hyper-Connections，mHC）是 Deepseek 新增的一种架构，并已在 Deepseek v4 中实现。

mHC 是对 HC（超连接）的一种修复，它解决了 HC 导致的梯度消失或爆炸问题，同时仍保持性能提升。因为在 HC 上添加权重和偏置会使来自较早层的信号更难更新，从而使残差流的“残差性”降低。

HC 是一种诅咒般的方法，通过在残差流上添加权重和偏置来模拟更宽的残差流。

mHC 是对 HC 的改进，其中使用 Sinkhorn-Knopp 方法使残差流上的权重和偏置变为双随机矩阵。双随机矩阵的行和列之和都为 1，就像同时沿行和列应用 softmax。MHC-lite 与 mHC 论文类似，但使用了 Birkhoff-von Neumann 方法来实现双随机矩阵。

5 hours ago

一份面向工程设计的人形机器人指南，很多人形机器人的硬件/物理学知识 | blog | #指南

“一个类人机器人每小时大约走 5,000 步。每一步都会将相当于身体重量 2–3 倍的冲击力传递到腿部执行器——偶尔承受这样的力还可以，但当这种冲击连续数千次而不间断时，就会造成破坏。这种无情的工作循环正是大多数类人机器人执行器失效的原因，也是幸存者最终都采用相同工程解决方案的原因。

关键在于，因为这种冲击发生的速度快于任何传感器循环的反应时间（亚毫秒级），执行器必须在机械上能够‘让步’（可反向驱动性），以吸收能量。如果执行器在机械上是自锁的——如大多数工业用滚珠丝杠——齿轮箱就必须吸收 100% 的冲击能量，从而导致瞬间剪切失效。”

指南

5 hours ago

现在市面上AI工具很多，skills也遍地都是。似乎构建一个AI自动化工作流已经非常简单了。但是，真正动手才知道，这里面的坑非常多：

*很多skills看似很厉害，但不能完成我的个性化的需求。AI时代，真正属于自己的、个性化的工作流才是重点。

* 下载了skills，好容易配置起来了，但运行就是不稳定，有时候好使，有时候又不好使。修起来也不知道从何下手。

* 使用OpenClaw极费token。

* 有些skills要求注册api key，或者调用频率有限制。本来只是想完成自己的一个小需求，没想到还得付个订阅费。

这个视频演示如何使用Claude Code + AmphiLoop免费制作一个真正属于自己的AI工作流：自动浏览+汇总YouTube上指定的视频频道，并把汇总信息定时发送到手机。

一个世界模型的教学项目：Nano World Models

这个项目把一个完整研究世界模型需要的东西放在一起：数据、训练、评估、模型变体、实验消融、可视化和下游应用。它的目标是降低从“读懂世界模型”到“实际部署和实验”的门槛，并通过简洁抽象、模块化配置和完整文档，让使用者能轻松修改、适配和扩展。

项目强调“从模型到科学”的转变：随着世界模型方法逐渐收敛，真正重要的问题变成如何理解模型行为、验证经验规律、探索规模化和最佳实践；因此它提供了模块化设计、丰富数据环境、可复现实验和开放资源，目标是成为世界模型研究社区的共享基础设施。

5 hours ago

Addy Osmani 是 Google 的工程师，目前担任 Google Cloud AI director。他写了一篇博客《Agent Skills》来提醒开发者：AI 编码智能体虽然能快速生成代码，但默认会跳过高级工程师重视的“隐形工作”，比如写规格、拆任务、先测试、做评审、控制改动范围、留下验证证据。本文中Addy Osmani 试图把多年在 Google 级工程体系中沉淀出的工程纪律，迁移到 AI agent 时代，让模型不只是更快地产出代码，而是在规格、测试、评审、验证和发布约束下产出更可信的软件。

文章配套有开源项目 addyosmani/agent-skills ，把里面这些高级工程实践封装成了 skills 。

6 hours ago

一个文件让 AI Coding 效率翻倍：AGENTS. md 实践指南 | 公众号文章

「在代码仓库中放一份上下文文件，告诉 AI 工具这个项目是什么、怎么构建、有什么规矩」——这个做法现在已经有了一个统一的名字：AGENTS.md。

团队使用的 AI Coding 工具比较分散——Qoder、Cursor、灵码、Kiro、Claude Code 都有人用。不同工具各自有配置机制，Skill、Rule、Hook 的存储目录不统一。

选择 AGENTS.md 作为核心入口的原因：

足够通用——已被多数主流工具识别，一份文件覆盖大部分工具
零配置成本——不需要安装插件或配置 hook，工具打开项目自动读取
降低维护负担——不用为每种工具各维护一份规则文件
兼容性好——Claude Code 不识别 AGENTS.md，但 ln -s AGENTS.md CLAUDE.md 即可
基于这个考虑，我们把和特定工具绑定的 rules、hook 等配置作为补充，核心规则全部收敛到 AGENTS.md 一个入口。