黑洞资源笔记

14 hours ago

Addy Osmani 是 Google 的工程师，目前担任 Google Cloud AI director。他写了一篇博客《Agent Skills》来提醒开发者：AI 编码智能体虽然能快速生成代码，但默认会跳过高级工程师重视的“隐形工作”，比如写规格、拆任务、先测试、做评审、控制改动范围、留下验证证据。本文中Addy Osmani 试图把多年在 Google 级工程体系中沉淀出的工程纪律，迁移到 AI agent 时代，让模型不只是更快地产出代码，而是在规格、测试、评审、验证和发布约束下产出更可信的软件。

文章配套有开源项目 addyosmani/agent-skills ，把里面这些高级工程实践封装成了 skills 。

14 hours ago

一个文件让 AI Coding 效率翻倍：AGENTS. md 实践指南 | 公众号文章

「在代码仓库中放一份上下文文件，告诉 AI 工具这个项目是什么、怎么构建、有什么规矩」——这个做法现在已经有了一个统一的名字：AGENTS.md。

团队使用的 AI Coding 工具比较分散——Qoder、Cursor、灵码、Kiro、Claude Code 都有人用。不同工具各自有配置机制，Skill、Rule、Hook 的存储目录不统一。

选择 AGENTS.md 作为核心入口的原因：

足够通用——已被多数主流工具识别，一份文件覆盖大部分工具
零配置成本——不需要安装插件或配置 hook，工具打开项目自动读取
降低维护负担——不用为每种工具各维护一份规则文件
兼容性好——Claude Code 不识别 AGENTS.md，但 ln -s AGENTS.md CLAUDE.md 即可
基于这个考虑，我们把和特定工具绑定的 rules、hook 等配置作为补充，核心规则全部收敛到 AGENTS.md 一个入口。

14 hours ago

像对待开发者一样对待你的编码代理

这篇文章认为，要像管理初级开发者一样管理编码agent。| blog

单个 agent 在一个目录里工作还勉强可行，但多个 agent 并行写代码时，很快会因为 Git 分支、文件系统缓存、Docker Compose 容器、端口和数据库等共享资源互相干扰。

解决办法是给每个 agent 一套独立的开发者环境：自己的项目副本、运行时、Compose 命名空间、本地 URL 和独立分支。这样 agent 的工作流就更接近真人开发者：各自开发、提交分支、接受 review、能随时丢弃实验环境。

提升 agent 生产力的关键不只是模型能力，而是给它们配套人类团队早已习惯的工程协作基础设施。

14 hours ago

美团LongCat 团队发了篇Paper 并发了一个配套的skill，用一个比较简单的办法来提升agent在数学、代码和可验证推理任务上的表现。| hugging face

现在 Agent 框架越来越复杂了，很多系统通过多智能体、记忆、技能和工具调用来提升模型表现。但作者认为真正起作用的可能并不是这堆复杂的东西，而是模型在推理时进行“更重、更充分思考”的能力。

论文提出的 HeavySkill，就是把这种能力封装成一个可复用的 skill：先让模型从多个角度独立推理，再对这些推理过程进行综合、比较和判断。实验结果显示，这种“多路探索 + 综合反思”的方式，通常比简单多次采样或多数投票更有效，尤其在数学、代码和可验证推理任务上提升明显。

14 hours ago

OpenCyvis 是一个开源的 AI 手机方案。用户可以自由选择 LLM 后端（云端或本地），AI 在后台虚拟显示器上操作，不占用前台屏幕。Apache 2.0 协议，代码完全公开。| 公众号文章 | github

“过去一年，不少厂商推出了「AI 手机」的概念——豆包、三星 Galaxy AI、Google 的 Gemini 集成等等。核心思路大同小异：AI 理解屏幕内容，代替用户完成操作。

但这些方案有一个共性：它们都是封闭的。模型由厂商指定，数据通过厂商的服务器处理，用户没有办法审计中间发生了什么，也没有办法换一个自己信任的模型。

开源社区也有一些尝试，比如基于 ADB 的各种PhoneUse项目。它们可以让用户自定模型，但需要连接电脑，且 AI 操作时会直接占用用户的屏幕。

于是我做了OpenCyvis ，试图同时解决这两个问题。”

14 hours ago

微软提出了一种面向行为的并发（BOC）编程范式，尤其适合 Python。| blog

“在 BOC 程序中，数据是共享的，但每个行为对数据拥有独特的时间所有权，从而无需通过锁来协调访问。对于 Python 程序员来说，这带来了诸多好处。行为通过装饰函数来实现，从程序员的角度看，这些函数的使用方式与普通函数无异。更重要的是，程序员的任务从解决并发数据访问问题转变为通过函数组织数据流。由此生成的程序更易于理解、更易于维护、更易于扩展，并且能够充分利用多核性能，因为可以高效地调度行为在多个进程中运行。”

它的全名是 Behavior-Oriented Concurrency in Python，核心目标是让程序员把注意力转移到有哪些行为要发生、这些行为依赖哪些数据、数据如何在行为之间流动这样的问题上，降低并发编程的难度。官网把它概括为一种适合 Python 的并发/并行新范式：让每个行为在某段时间内独占它需要的数据，从而减少手动协调共享数据的负担。

15 hours ago

OpenAI 把训练 ChatGPT 用的网络协议开源了。| 公告 | paper

这套协议叫 MRC（Multipath Reliable Connection，多路径可靠连接），由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发，通过 OCP（开放计算项目，业内最大的开源硬件标准组织）开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。

训练大模型，几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输，只要有一笔晚到，所有 GPU 都得干等。集群越大，链路抖动和故障越频繁。

传统网络的麻烦：一条链路挂了，整个训练任务可能崩掉，得回到上一个检查点重跑；交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate（其大型算力基础设施项目）这种规模的集群时，遇到的第一个瓶颈就是网络。

过去一笔传输只走一条路径，MRC 改成把数据包拆散，同时分头走几百条路径，目的地再按内存地址重新拼起来。

链路出问题，微秒级就能绕开，不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。

网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。

MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。

最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。

15 hours ago

Florian Brand （ Prime Intellect的工程师、Interconnects AI的编辑）五一期间刚到中国AI实验室来访问，转了一圈后写下了他的感受。看他的文章对国内AI研究员们描写的非常鲜活。去过的实验室包括：Moonshot、小米、MiniMax、智谱、美团、阿里巴巴、蚂蚁灵境、ModelScope、零一万物、宇树科技。| 原文

下面是翻译。
-- 我在中国 AI 实验室感受到的氛围

在过去大约 10 天里，我有机会和 SAIL 的一群很棒的人一起访问中国的 AI 实验室。作为一个在半年内第一次分别去中国和美国的人，我发现两地的差异很有意思，但更让我着迷的是它们之间的相似之处。

我最强烈的印象是，我见到的 AI 研究人员都非常谦逊。他们对其他实验室和同行评价很高。DeepSeek 经常被提起，可能是因为他们在我们访问前几天刚发布了一个模型；大家谈起 DeepSeek 的论文时都带着真诚的钦佩。很多研究人员彼此都是好朋友，要么上过同一所大学，要么来自同一个家乡。他们会很开放地讨论自己的工作，而这些发现往往会在几个月后写进论文里。

这是它和西方 AI 圈最大的不同之一。在美国，整体氛围常常更像是一种零和竞争。各个实验室都很谨慎地塑造自己的定位。研究人员会考虑竞争，有些人也很自视甚高。领导者们会在泄露的备忘录里互相辱骂和攻击。这种差异或许可以用一个事实来解释：美国领先的实验室大多是闭源的，而许多中国实验室是开放的。中国实验室对字节跳动的豆包感到“害怕”——豆包是使用量遥遥领先、同时又闭源的聊天机器人。

与此同时，整体的能量感又和旧金山出奇地相似。这些研究人员都是重度网民，大量阅读 Twitter 和小红书，其中小红书正变得越来越受欢迎。他们都在用 Claude Code，或者自己的 CLI，来构建下一个模型。有些人在我们开会期间还在监控训练任务，看 reward curve 往上走。他们在思考如何进一步扩展规模，也抱怨算力不够。他们对当前基准测试的状态感到不满。

他们的主要关注点是训练出更好的模型。这一点不同于旧金山，在那里研究人员会思考 AI 的政治或哲学影响。他们不怎么讨论大规模失业、永久性的底层阶级，或者自己的模型是否有意识。他们只是想训练出优秀的模型。当他们听说你用过他们的模型时，眼睛会亮起来。他们迫切希望在下一代模型中修复当前模型的所有缺点。他们会通宵熬夜推动模型发布，然后第二天仍然出现在办公室。

我见到的大多数研究人员都非常年轻，很多人二十出头或二十五六岁。有些还是本科生，但更常见的是在读博士，同时在工业界工作并继续做研究。他们之间的共识是：相比学术界，现在工业界显然更有意思。我非常认同这一点，因为我自己也做过完全一样的选择。这些实验室非常重视这类人才获取，积极招聘实习生和研究生；这是西方实验室不太做的事情。

研究人员的乐观情绪也延伸到了普通人群中。普通大众似乎对技术以及 AI 和机器人技术的前景更加乐观。旅途中有人讲起他们的父母、祖父母用豆包和 DeepSeek 做各种事情，包括絮絮叨叨地讨论数学定理。这当然和西方很不一样，在西方，普通大众对 AI 往往很反感。

总的来说，这次旅行让我对这个生态系统有了一个很小的窥见。想在短短几天内了解这样一个庞大文明的文化，是不可能的。作为开放 AI 生态和开放研究的坚定支持者，我对二者的未来感到非常乐观，也希望这能在未来带来大量国际合作。

我想感谢我在 Moonshot、小米、MiniMax、智谱、美团、阿里巴巴、蚂蚁灵境、ModelScope、零一万物、宇树科技以及其他地方见到的所有很棒的人。感谢你们抽出时间，也感谢你们热情的接待。同时，也感谢 SAIL 组织这次行程，感谢所有同行的作者和记者。能在如此短的时间里遇到这么多聪明而有抱负的人，我非常感激。