开发AI智能体经常需要搭建复杂环境,管理本地工作树、保持电脑常开、处理超时中断,还要手动协调文件操作、Shell命令和Git流程,开发效率低下且易出错。

Open Agents 把智能体开发所需的一切整合到云端,提供了完整的后台编码代理平台。

支持聊天驱动的编码代理、持久化沙箱VM、隔离文件系统和Git集成,还能自动提交PR、多模型路由、语音输入,甚至支持无限期运行的耐久工作流。
平时聊天记录散落在各种平台,想复刻自己的说话风格需要折腾数据清洗、模型微调、部署聊天机器人,步骤繁琐且技术门槛高。

WeClone 提供从聊天记录到数字分身的一站式解决方案,让你轻松创建 AI 版的自己。

支持 Telegram 等平台导出聊天数据(含图片),自动预处理、隐私过滤,用聊天记录微调大模型,捕捉你的独特语气、幽默和表达习惯,然后一键部署到聊天机器人。

主要功能:

- 支持 Telegram 聊天记录导出(文本+图片),自动数据清洗和隐私过滤;
- 用聊天历史微调 LLM(如 Qwen2.5-VL-7B),完美复刻你的说话风格;
- 一键部署到 Telegram、Discord、Slack 等聊天机器人平台;
- 本地训练和自托管,数据全程隐私可控,支持 LoRA/QLoRA 高效微调;
- 浏览器 Demo 测试 + API 服务,支持多 GPU 训练;
- 自动处理链接、位置、文件等,支持图像模态数据。

支持 Windows(推荐 WSL)、Linux、macOS,通过 uv/pnpm 快速安装依赖本地运行,适合个人和开发者使用。
Apple Silicon 上跑大语言模型,MLX 框架速度总觉得不够快,speculative decoding 方案又非无损,精度和加速两难。

dflash-mlx 带来 DFlash 无损推测解码,为 MLX 优化专属解决方案。

基于 Block Diffusion 论文,一次生成 16 个 token 验证,结合自定义 Metal 内核实现 tape-replay rollback 和长上下文 JIT SDPA,Qwen3.5-9B 最高 4.1x 加速,接受率 89%+。

主要功能:

- 无损 DFlash 推测解码,支持 Qwen3.5 系列(4B/9B/27B/35B);
- 自动 draft 模型解析,无需手动指定;
- 高精度 tape-replay rollback,保持长序列一致性;
- 长上下文优化(N>=1024),自定义 Metal 注意力内核;
- 流式输出,支持 CLI/Server 和 OpenAI 兼容客户端;
- 基准测试工具,一键对比 baseline vs DFlash 加速比。

pip install dflash-mlx 即装即用,完美适配 M 系列芯片,开发者/AI 爱好者必备。
xchat 一个群组最多才能容纳481人?
Caveman,一个 Claude Code 技能/插件和 Codex 插件,让Agent说话像原始人人——在保持完全技术准确性的同时,减少约 75% 的 token。

Caveman 仅影响输出 token——思考/推理 token 不受影响。Caveman 不会让大脑变小。Caveman 只会让嘴巴变小。最大收益是可读性和速度,成本节省只是附加优势。

2026 年 3 月发表的论文《Brevity Constraints Reverse Performance Hierarchies in Language Models》发现,将大型模型限制为简短回复在某些基准测试上的准确率提高了 26 个百分点,并完全颠倒了性能层级。冗长并不总是更好,有时少说话 = 更正确。| #插件
xicilion 响马大佬的新项目boxsh,一个受限的 POSIX shell,支持并发 JSON 行 RPC 模式,基于 dash 0.5.12 构建。

boxsh 被设计为可编程执行底层——一个可以通过简单 JSON 协议驱动的后端,适用于 AI 代理、构建系统或编排层,同时内置 Linux 命名空间隔离。其核心使用场景:

AI 代理命令沙箱——为代理提供一个可以执行任意 shell 命令的工作环境,同时严格控制其可见和可修改的内容:仅挂载所需目录,阻止外发网络,隔离 PID 树。

零成本目录分叉——将任何目录覆盖为写时复制工作区。代理可以自由读写;会话结束时检查上层差异,决定提交或丢弃——无需 git 索引,适用于任意目录。

会话检查点与分支——冻结当前会话的上层,在其上叠加新覆盖层,从同一点向两个方向分支,并比较结果。也可以将上层归档以便长期存储。

并行隔离工作者——在多个工作者间共享一个大型只读基础(如 node_modules 树、Python venv、编译后的 sysroot),每个工作者拥有独立可写上层,并发运行互不干扰。

部署/迁移演练——在覆盖层上运行 make install、数据库迁移或包升级,精确检查上层文件变化,再决定是否真正应用更改。
复旦大学的课程:人工智能的软件基础(复旦大学2026年春季学期)

徐辉老师的课,课程还在更新中,课件会逐步放出
Hermes Agent 从入门到精通 | #电子书

Hermes Agent 是 Nous Research 在 2026 年 2 月发布的开源 AI Agent 框架。它和 OpenClaw、Claude Code 走的路线不同:内建了自改进学习循环、三层记忆系统、Skill 自动创建和进化机制。

如果你读过《Harness Engineering》橙皮书, Hermes 是那本书讲的五个组件(指令/约束/反馈/记忆/编排)的第一次产品化实现。
把参数丢进硬盘:Gemma 4 的轻量化魔法 | 帖子

提要:Gemma 4 E 系列模型通过 Per-Layer Embeddings 技术,将大量静态 Embedding 参数从显存移至磁盘。这种设计在不增加推理计算负担的前提下,极大地扩展了模型的知识容量。

Gemma 4 的 E2B 和 E4B 模型里,那个“E”指代 Embedding,与 MoE 模型里的 Experts 完全是两码事。这套架构玩了个很聪明的“移花接木”。

传统的 Transformer 在入口处用一个巨大的查找表。现在的 PLE 技术在每一层都塞进了更小的嵌入矩阵。这些参数虽然撑大了总参数量,却没增加计算成本。Embedding 本质上就是个查表过程,不需要 CUDA 内核去算矩阵乘法。

既然是查表,那就没必要非得挤在 VRAM 里。Token ID 一定,直接从磁盘或 CPU 内存里把对应的向量捞出来就行。有网友通过 llama.cpp 的参数配置,成功把 Embedding 权重丢到了 CPU,让显存占用瞬间降了下来。

这就像是给操作系统挂载了一个极其庞大的只读文件系统,虽然体积大,但它不参与指令流水线的实时运算,只有在需要时才触发一次磁盘 IO。

这种“静态知识”的容量上限在哪?如果把所有智力都塞进查表里,模型会不会变成一个只会背书的死记硬背机器?
程序员的肌肉萎缩:我们是在利用工具,还是在丧失直觉? | 帖子

提要:本文探讨了开发者在使用 AI 工具时面临的一种隐形危机:随着习惯性将问题描述给 AI 并等待指令,人类在不确定性下自主构建假设、进行逻辑推演的“思维肌肉”正在发生萎缩。这种依赖并非单纯的效率提升,而是一种心智地图的模糊过程。

上个月,面对一个运行了两年的服务中出现的偶发网络超时问题,我发现自己竟然无法在没有 AI 协助的情况下完成调试。这种感觉很陌生,甚至有些惊悚。

这不像是在讨论某种技术瓶颈,更像是在描述一种肌肉萎缩。原本我能坐下来、通过观察日志、分析连接池、推演负载均衡逻辑来建立假设,但现在,我的第一反应是打开 Claude,把症状喂给它,然后机械地跟随它的建议走向死胡同。

这种现象很像 GPS 导航。你可以靠着它到达任何地方,但如果你长期依赖它,你就会失去对城市街道的记忆。当你突然失去信号时,你缺少的不仅仅是信息,而是那张通过亲自探索才建立起来的“心智地图”。

有网友提到,这其实是一种“认知债”或“理解债”的积累。当我们在代码库中不再进行深度的逻辑巡检,而是直接让 AI 寻找路径时,我们正在从“问题的解决者”退化为“指令的路由转发器”。这种转变是极其隐蔽且渐进的。

不过,也有人持有不同意见。有人认为这并非技能流失,而是一种抽象层级的跃迁,就像编译器取代了汇编语言一样,我们将精力转向了更高阶的系统设计。更有经验的开发者指出,关键在于你如何使用它:是把它当作“副驾驶”来验证你的假设,还是把它当作“司机”让你盲目跟随?

最值得警惕的不是工具本身,而是这种依赖性的发生往往没有预兆。当你在面对错误堆栈时,不再先思考 5 分钟,而是本能地按下复制粘贴键的那一刻,那个负责在不确定性中寻找规律的思维引擎,就已经开始停转了。

如果一个人从职业生涯的第一天起就习惯于这种“外包式思考”,当 AI 给出错误方向时,他还有能力识别出那是一堆毫无逻辑的幻觉吗?
Back to Top