一份面向工程设计的人形机器人指南,很多人形机器人的硬件/物理学知识 | blog | #指南

“一个类人机器人每小时大约走 5,000 步。每一步都会将相当于身体重量 2–3 倍的冲击力传递到腿部执行器——偶尔承受这样的力还可以,但当这种冲击连续数千次而不间断时,就会造成破坏。这种无情的工作循环正是大多数类人机器人执行器失效的原因,也是幸存者最终都采用相同工程解决方案的原因。

关键在于,因为这种冲击发生的速度快于任何传感器循环的反应时间(亚毫秒级),执行器必须在机械上能够‘让步’(可反向驱动性),以吸收能量。如果执行器在机械上是自锁的——如大多数工业用滚珠丝杠——齿轮箱就必须吸收 100% 的冲击能量,从而导致瞬间剪切失效。”
现在市面上AI工具很多,skills也遍地都是。似乎构建一个AI自动化工作流已经非常简单了。但是,真正动手才知道,这里面的坑非常多:

*很多skills看似很厉害,但不能完成我的个性化的需求。AI时代,真正属于自己的、个性化的工作流才是重点。

* 下载了skills,好容易配置起来了,但运行就是不稳定,有时候好使,有时候又不好使。修起来也不知道从何下手。

* 使用OpenClaw极费token。

* 有些skills要求注册api key,或者调用频率有限制。本来只是想完成自己的一个小需求,没想到还得付个订阅费。

这个视频演示如何使用Claude Code + AmphiLoop免费制作一个真正属于自己的AI工作流:自动浏览+汇总YouTube上指定的视频频道,并把汇总信息定时发送到手机。
Media is too big
VIEW IN TELEGRAM
一个世界模型的教学项目:Nano World Models

这个项目把一个完整研究世界模型需要的东西放在一起:数据、训练、评估、模型变体、实验消融、可视化和下游应用。它的目标是降低从“读懂世界模型”到“实际部署和实验”的门槛,并通过简洁抽象、模块化配置和完整文档,让使用者能轻松修改、适配和扩展。

项目强调“从模型到科学”的转变:随着世界模型方法逐渐收敛,真正重要的问题变成如何理解模型行为、验证经验规律、探索规模化和最佳实践;因此它提供了模块化设计、丰富数据环境、可复现实验和开放资源,目标是成为世界模型研究社区的共享基础设施。
Addy Osmani 是 Google 的工程师,目前担任 Google Cloud AI director。 他写了一篇博客《Agent Skills》来提醒开发者:AI 编码智能体虽然能快速生成代码,但默认会跳过高级工程师重视的“隐形工作”,比如写规格、拆任务、先测试、做评审、控制改动范围、留下验证证据。 本文中Addy Osmani 试图把多年在 Google 级工程体系中沉淀出的工程纪律,迁移到 AI agent 时代,让模型不只是更快地产出代码,而是在规格、测试、评审、验证和发布约束下产出更可信的软件。

文章配套有开源项目 addyosmani/agent-skills ,把里面这些高级工程实践封装成了 skills 。
一个文件让 AI Coding 效率翻倍:AGENTS. md 实践指南 | 公众号文章

「在代码仓库中放一份上下文文件,告诉 AI 工具这个项目是什么、怎么构建、有什么规矩」——这个做法现在已经有了一个统一的名字:AGENTS.md。

团队使用的 AI Coding 工具比较分散——Qoder、Cursor、灵码、Kiro、Claude Code 都有人用。不同工具各自有配置机制,Skill、Rule、Hook 的存储目录不统一。

选择 AGENTS.md 作为核心入口的原因:

足够通用——已被多数主流工具识别,一份文件覆盖大部分工具
零配置成本——不需要安装插件或配置 hook,工具打开项目自动读取
降低维护负担——不用为每种工具各维护一份规则文件
兼容性好——Claude Code 不识别 AGENTS.md,但 ln -s AGENTS.md CLAUDE.md 即可
基于这个考虑,我们把和特定工具绑定的 rules、hook 等配置作为补充,核心规则全部收敛到 AGENTS.md 一个入口。
像对待开发者一样对待你的编码代理

这篇文章认为,要像管理初级开发者一样管理编码agent。| blog

单个 agent 在一个目录里工作还勉强可行,但多个 agent 并行写代码时,很快会因为 Git 分支、文件系统缓存、Docker Compose 容器、端口和数据库等共享资源互相干扰。

解决办法是给每个 agent 一套独立的开发者环境:自己的项目副本、运行时、Compose 命名空间、本地 URL 和独立分支。这样 agent 的工作流就更接近真人开发者:各自开发、提交分支、接受 review、能随时丢弃实验环境。

提升 agent 生产力的关键不只是模型能力,而是给它们配套人类团队早已习惯的工程协作基础设施。
美团LongCat 团队发了篇Paper 并发了一个配套的skill,用一个比较简单的办法来提升agent在数学、代码和可验证推理任务上的表现。| hugging face

现在 Agent 框架越来越复杂了,很多系统通过多智能体、记忆、技能和工具调用来提升模型表现。但作者认为真正起作用的可能并不是这堆复杂的东西,而是模型在推理时进行“更重、更充分思考”的能力。

论文提出的 HeavySkill,就是把这种能力封装成一个可复用的 skill:先让模型从多个角度独立推理,再对这些推理过程进行综合、比较和判断。实验结果显示,这种“多路探索 + 综合反思”的方式,通常比简单多次采样或多数投票更有效,尤其在数学、代码和可验证推理任务上提升明显。
OpenCyvis 是一个开源的 AI 手机方案。用户可以自由选择 LLM 后端(云端或本地),AI 在后台虚拟显示器上操作,不占用前台屏幕。Apache 2.0 协议,代码完全公开。| 公众号文章 | github

“过去一年,不少厂商推出了「AI 手机」的概念——豆包、三星 Galaxy AI、Google 的 Gemini 集成等等。核心思路大同小异:AI 理解屏幕内容,代替用户完成操作。

但这些方案有一个共性:它们都是封闭的。模型由厂商指定,数据通过厂商的服务器处理,用户没有办法审计中间发生了什么,也没有办法换一个自己信任的模型。

开源社区也有一些尝试,比如基于 ADB 的各种PhoneUse项目。它们可以让用户自定模型,但需要连接电脑,且 AI 操作时会直接占用用户的屏幕。

于是我做了OpenCyvis ,试图同时解决这两个问题。”
Back to Top