OpenAI Symphony 将项目工作转化为隔离的自主实现运行,让团队管理工作而非监督编码代理。
不仅能监控Linear看板自动生成代理处理任务,还提供CI状态、PR审查反馈、复杂度分析和演示视频等工作证明,验收后安全合并PR。
主要功能:
- 监控任务板(如Linear),自动生成隔离代理实现任务;
- 提供完整工作证明:CI状态、PR审查、复杂度分析、walkthrough视频;
- 安全PR合并机制,工程师无需实时监督;
- 支持harness engineering代码库,适用于成熟项目;
- 实验性Elixir参考实现,可快速部署运行;
- SPEC规范公开,便于自定义开发其他语言版本。
支持Elixir/Python等语言实现,适合工程团队和AI开发项目使用,低调工程预览版,专为可信环境测试。
随着 AI 代理能力的增强,传统的 Markdown 格式已难以承载复杂的逻辑与视觉需求。转向 HTML 作为 AI 的输出媒介,能实现更高信息密度、交互式体验与更直观的视觉呈现,从而让人类在协作中保持深度参与。
当 AI 代理(Agent)开始处理极其复杂的任务时,Markdown 这种“轻量级”的语法反而成了一种枷锁。
如果你习惯于看 AI 生成的 Markdown 计划书,大概会发现一个尴尬的现状:一旦文档超过百行,阅读体验就开始崩塌。为了弥补表达能力的不足,AI 甚至会用 Unicode 字符去模拟颜色,或者用 ASCII 字符画一些简陋的流程图。这就像是在用电报机试图传输高清视频,虽然能传达意思,但效率低得令人沮丧。
HTML 正在成为一种更高效的“通信协议”。
它不仅仅是关于“好看”。HTML 的核心优势在于信息密度。通过嵌入 SVG 矢量图、利用 CSS 进行布局、甚至加入 JavaScript 实现交互,AI 可以交付一个真正的“产品”而非仅仅是一段“描述”。比如,与其看一段描述数据趋势的文字,不如让 AI 直接生成一个带滑块的交互式仪表盘。
有网友提到,HTML 带来的交互感能让协作变得更有趣。你可以要求 AI 生成一个临时的、针对特定任务的“微型编辑器”:比如一个可以拖拽排序的任务卡片流,或者一个带实时预览的 Prompt 调试器。这种“即用即弃”的工具感,让文档从静态的记录变成了动态的实验室。
当然,这种转变并非没有代价。
HTML 的 Token 消耗通常是 Markdown 的数倍,且在版本控制(Git Diff)中显得非常臃肿。如果只是为了简单的笔记,Markdown 依然是王者。但当我们需要进行复杂的架构设计、代码评审或原型开发时,HTML 提供的语义化结构和视觉清晰度,能显著降低人类的认知负荷。
与其说我们在重新发现 HTML,不如说我们在利用 Web 技术栈,为 AI 时代构建一种全新的、可交互的“数字界面”。
当文档本身变成了一个可以运行的小程序,我们与 AI 的关系,也从单纯的“指令与反馈”,进化成了真正的“共创”。
通过将 Andrej Karpathy 的 4 条基础规则扩展为针对现代 Agent 工作流的 12 条指令,可以将 Claude 的编程错误率大幅降低。核心在于将 AI 从“自动补全工具”升级为遵循“行为契约”的协作伙伴。
很多人把
CLAUDE.md 当成随手丢弃的偏好清单,要么塞满 4000 个 token 导致模型完全无视,要么干脆空着。这就像给一个极度聪明的实习生发了一本厚得没法读的员工手册,最后他只能靠直觉乱撞。Karpathy 最初提出的 4 条规则解决了“写代码”时的基本逻辑问题:别瞎猜、保持简单、外科手术式修改、目标导向。这确实把错误率压了下来,但现在的 AI 已经不是只会写单行代码的补全工具了,它们是会在多个文件间跳转、执行多步任务的 Agent。
现在的痛点变了。有网友提到,Agent 会在长任务中迷失方向,或者在两个不同的代码风格之间试图“取平均值”,结果写出了一堆逻辑混乱的缝合怪。
为了补齐这些漏洞,需要引入更硬核的约束。比如,别让模型去做确定性的逻辑判断,那是代码该干的事,不是概率模型该干的事;必须设置严格的 Token 预算,否则它会陷入无休止的循环,直到烧光你的额度;还有最重要的,要求它“大声失败”。如果迁移漏掉了记录,或者测试只是在测常量,它必须直接告诉你“我没把握”,而不是伪装成成功。
有趣的是,规则并不是越多越好。当规则超过 200 行,模型就会开始机械地模仿“存在规则”这个事实,而不再理解规则本身。
这本质上是在为 AI 编写一套“操作系统协议”。规则不是建议,而是契约。
AI 极大地缩短了“想法”到“结果”的路径,这虽然缓解了许多人的任务瘫痪,却也带来了一种空虚感。当实现过程被外包,程序员正面临着内在成就感的丧失、技能萎缩以及一种类似赌博的成瘾性风险。
有个很有共鸣的说法:LLM 拿走了所有的内在奖励,只留下了外在收益。
以前写代码像是在解谜,那种从底层逻辑一点点啃下来、最后构建出系统的过程,是纯粹的内在驱动。但现在,当你用 Claude 或 Cursor 几分钟就“变”出一个工具时,那种成就感消失了。就像你下载了一个别人写好的库,虽然东西能用,但那不是你做的。你感觉自己不再是一个创造者,而是一个在管理一群“代理人”的经理。
这种感觉很像从工程师转岗做管理:你不再处理具体的细节,而是在解释意图、审查输出、处理那些因为上下文膨胀而开始“漂移”的错误。
更危险的是那种多巴胺的反馈循环。
对于有 ADHD 或执行功能障碍的人来说,AI 简直是神药,它能瞬间抹平“启动困难”的阻碍。但这种“想法→结果”的路径被极度压缩,会让大脑陷入一种类似赌博的成瘾状态。你不再享受思考的过程,而是在追求那种“咒语一念,奇迹发生”的快感。有网友提到,这种快感甚至让人想通过不断购买 Token 来维持这种高频的反馈。
有观点认为,这其实是在用长期的认知能力换取短期的交付速度。
我们正在经历一种技能的“退化”。每一次选择让 AI 代替思考的捷径,都是在削弱我们对复杂系统的直觉和调试本能。当代码变成了一种随手可得的“生成物”,它在开发者心中的价值也就归零了。
如果有一天,我们只需要通过自然语言来“指挥”代码,那我们究竟是在编程,还是在进行某种高级的、无意义的文字游戏?
或者说,当所有的实现都变得廉价,我们该如何定义“创造”?