黑洞资源笔记

11:47 · Mar 26, 2026 · Thu

Honcho 是一款开源的记忆库与托管服务，专为构建有状态的智能体（stateful agents）设计。它支持任何模型和架构，能持续学习并维护用户、智能体、群组、观点等实体的动态状态，让你的智能助手记忆力爆棚，更加可信和个性化。

主要亮点：
- 统一的“伙伴”模型，支持多参与者多会话交互
- 多种记忆存储原语：工作空间、会话、消息、集合与文档
- 强大的异步推理系统，自动生成用户画像与会话摘要
- 自然语言查询聊天接口，快速获取用户偏好与历史信息
- 支持多种大模型（OpenAI、Anthropic、Google Gemini 等）
- 丰富的SDK支持 Python 和 TypeScript，开发体验极佳
- 灵活配置，支持本地部署、Docker 和云端部署（Fly.io）

Honcho让你的智能体拥有“记忆”，让人机交互更自然、更高效，也帮助你打造持久的竞争壁垒。

11:45 · Mar 26, 2026 · Thu

AI记忆系统突破99%准确率：用Agent完全替代向量数据库 | 推文

Supermemory团队用多智能体协作系统在长期记忆基准测试LongMemEval上达到99%准确率，核心突破是用3个并行搜索Agent替代传统向量检索，让AI通过“理解”而非“数学相似度”来回忆信息。这套方案不需要向量数据库，甚至可以嵌入机器人。

向量数据库可能不是AI记忆的最优解。

Supermemory在LongMemEval基准测试（11.5万token对话历史）上达到99%准确率，用的方法反而更简单：完全抛弃向量检索，改用多个Agent协作。

传统RAG的问题出在检索环节。语义相似度匹配根本分不清“旧事实”和“新更正”，当检索结果里混杂太多噪音，大模型就会迷失。

他们的解法是ASMR（Agentic Search and Memory Retrieval）：

信息摄取阶段，3个并行Observer Agent同时读取对话记录，按照个人信息、偏好、事件、时间数据等六个维度提取知识点，直接存储结构化内容而非生成embedding。

检索阶段才是关键。面对提问时不查询数据库，而是派出3个专门的搜索Agent——一个找直接事实，一个挖隐含语境，一个重建时间线。这些Agent是在“主动阅读和推理”，不是在做向量余弦计算。

回答阶段用了两种策略测试。第一种是8个高度专业化的prompt变体并行运行（精确计数专家、时间专家、上下文深挖专家等），只要任何一条推理路径答对就算成功，准确率98.6%。第二种是12个Agent独立作答后，由一个聚合器LLM综合投票裁决，准确率97.2%。

有观点认为这套系统证明了“认知理解”比“数学相似性”更适合处理记忆任务。数学只能捕捉表层模式，而Agent可以处理时间序列中的矛盾、更新和细微差别。

更有意思的是，这个架构完全在内存中运行，不依赖外部向量数据库，理论上可以部署到任何设备，包括机器人。他们11天后会开源全部代码。

当数十亿个高度个性化的AI Agent开始学习和记住我们的一切时，记忆系统的天花板在哪里？也许不在算力，而在我们愿意给Agent多少“主动思考”的权限。

11:42 · Mar 26, 2026 · Thu

在线强化学习训练环境开发、部署总是琢磨如何隔离安全运行，有没有简单统一的接口和工具呢？

OpenEnv 是一个基于 Gymnasium 风格 API 的代理式执行环境接口库，助力 RL 训练后环境的创建和管理。

它支持环境的容器化隔离，基于 WebSocket 提供简洁的 step()、reset()、state() 等接口，让训练框架和研究者都能轻松调用。

核心功能：
- 标准化环境客户端，支持异步和同步调用
- 环境容器化部署，支持本地 Docker 和未来 Kubernetes
- 内置 WebUI，方便实时交互调试
- 提供 CLI 初始化和 Hugging Face Spaces 一键部署
- 丰富示例环境：Echo（消息回显测试）、编码环境、国际象棋、Atari 游戏、金融交易模拟等

11:40 · Mar 26, 2026 · Thu

LightRAG 是一个简单快速的检索增强生成（RAG）框架，能高效整合大语言模型和知识图谱，实现智能文档查询和多模态检索。

LightRAG支持多种存储方案（PostgreSQL、Neo4j、Milvus、OpenSearch等），支持文本、图片、表格、公式等多种数据类型的端到端知识抽取和问答。还提供了丰富的示例代码、Web UI，以及支持OpenAI、Hugging Face、Ollama、Azure OpenAI等多家模型接口。

项目亮点：
- 灵活配置的多存储架构，适合大规模知识管理；
- 深度集成知识图谱构建与编辑，支持实体关系管理、知识图谱可视化；
- 支持强大的Reranker提升检索效果；
- 新增RAG-Anything，打通多模态文档处理与检索能力；
- 丰富文档导入格式、引用功能、缓存管理、Token使用统计；
- 还支持Langfuse可观测性监控以及RAGAS自动评价指标。

无论是科研研究、企业知识库、还是多模态智能问答应用，LightRAG都提供了极具扩展性且高性能的解决方案。

10:01 · Mar 26, 2026 · Thu

英伟达CEO：生物学的ChatGPT时刻即将到来 | 帖子

Jensen Huang站在镜头前，用他标志性的皮夹克和自信语调宣告：“生物学的ChatGPT时刻就在眼前，可能是2-3年，也许5年。”

Reddit上炸开了锅。“又是一个卖铲子的在吹牛。”有人这样评论。这位评论者说出了很多人的心声——Jensen毕竟不是生物学家，他的公司靠卖GPU赚钱。更讽刺的是，OP在标题里把Jensen说的“near”（临近）改成了“here”（已经到来），这种细微的篡改恰恰暴露了当下AI领域的集体焦虑。

一位分子生物学家直言不讳：“AlphaFold确实令人印象深刻，但这些CEO的过度炒作已经到了可笑的程度。”另一位资深肺科医生承认AI确实能像他一样快速发现肺炎，但语气里透着一种复杂的情绪——既不是恐惧，也不是兴奋，更像是目睹同事被悄悄替换时的无力感。

有网友提到了那个澳大利亚企业家的故事。他用ChatGPT和AlphaFold，在研究人员帮助下，为患癌的狗定制了mRNA疫苗。几周后肿瘤明显缩小。这个案例被反复引用，却也恰恰说明了问题：这不是AI的独角戏，而是“AI+人类专家”的协作。去掉任何一方，故事都不成立。

真正值得关注的数据埋在评论深处。Nature发表的DeepRare系统，通过多智能体架构处理罕见病诊断，准确率64.4%，击败了五位拥有10年以上经验的医生（54.6%）。72%的美国医生已在工作中使用AI，2026年平均每位医生使用2.3个AI工具，而2023年这个数字还是1.1。微软的GigaTIME模型分析了14256名癌症患者，发现了1234个统计学显著关联。

这些进展是实实在在的。但距离Jensen描述的“理解生物学的基本构建块”还有多远？一位生物学教授的评论击中要害：“我们几十年前就理解了这些构建块。有些过程我们了如指掌，有些依然一无所知。AI能加速现有流程，这不是新闻。”

有观点认为，反对AI的声音主要来自西方，亚洲对AI更乐观。但数据显示，52%的美国人对AI的担忧多于兴奋。这种情绪并非无缘无故。当Jensen承诺AI将“让生活更美好”时，普通人看到的是：电费上涨、工作岗位消失、而那些万亿美元投资并未转化为他们能感知的生活改善。

2008年金融危机的阴影仍未散去。有评论者警告：“公司会为了短期利益毁掉整个经济，2008已经证明了这点。”如果AI足够快地取代大量工作，而新行业无法及时吸纳劳动力，结果可能是工资竞相压价，服务业崩溃，形成负反馈循环。

Jensen的问题不在于他说错了什么，而在于他说得太模糊。“理解生物学”是什么意思？AlphaFold能预测蛋白质结构，但蛋白质动力学是另一回事。一个分子生物学家的比喻很形象：“知道零件的形状，不等于知道机器如何运转。”

ChatGPT是全球第五大访问量网站，这是事实。但“ChatGPT时刻”究竟指什么？是技术突破、商业成功，还是公众认知的转变？对生物学来说，这三者可能发生在完全不同的时间点。实验室里的突破需要年复一年的临床验证才能变成可用的疗法，这个过程无法像软件迭代那样压缩。

一位研究者的观点值得深思：“LLM在发现阶段会非常有用。但从AI生成的假设到可上市的药物，仍需要多年的实验室和临床分析。研究人员获得收益和新疗法大规模出现之间会有时间差。”

最耐人寻味的是那些被算法推到评论区底部的声音。有人提到Michael Levin，一位在生物电反馈领域工作的科学家，他的团队用AI设计了一种叫Xenobot的生命体，完全没有编辑基因。这种不那么性感、更踏实的进展，反而可能更接近真正的革命。

Jensen可能是对的。生物学确实在经历深刻变革。但革命往往发生在无人注意的角落，而不是镁光灯下。当所有人盯着“ChatGPT时刻”何时到来时，真正的改变可能已经在某个实验室的培养皿里悄然发生了。

09:52 · Mar 26, 2026 · Thu

Qwen 3.5 397B：最强本地编程模型？| 帖子

一位开发者测试了Qwen 3.5 397B模型后认为，它是目前最好的本地编程模型。虽然生成速度较慢（11-15 tokens/秒），但代码质量极高，几乎不需要多轮修复。更令人惊讶的是，使用IQ2_XS量化版本仅需123GB内存就能运行，在极低精度下仍保持了出色的性能。

这个结论来自Reddit LocalLLaMA板块的一次讨论。发帖者称他测试了几乎所有主流的本地大模型——从Qwen系列的122B/35B/27B，到GPT-OSS 120B、StepFun 3.5、MiniMax M2.5，再到Super Nemotron 120B，没有一个在知识储备和代码准确性上能接近397B。

速度慢是个问题。在96GB DDR5内存+48GB显存的配置下，它的生成速度从空白上下文的15 tokens/秒降到10万tokens时的11 tokens/秒。有网友调侃说这是"每个工作日一个token"，也有人质疑这种速度是否实用。

但发帖者的逻辑很直接：虽然单次生成慢，但因为代码质量高，不需要反复修改，总体效率反而更高。而且和它的小版本或StepFun 3.5不同，397B的思考过程其实很简洁。

量化技术在这里起了关键作用。AesSedai制作的IQ2_XS量化版本把模型压缩到123GB，相比之下，其他模型即使是更小的参数量也要用IQ4_XS（StepFun 3.5、MiniMax M2.5）或Q6_K（Qwen 3.5 122b/35b/27b）。

这引发了一个有意思的讨论：2bit量化的397B是否比4-6bit量化的122B更好？有网友分享了评测数据——IQ2_XS在MMLU上达到87.86%，GPQA diamond达到82.32%，这个表现远超预期。

有观点认为，对于MoE架构的超大模型，"小模型高精度 vs 大模型低精度"的权衡逻辑已经不适用了。397B的参数空间太大，量化噪声分散后影响有限，路由机制和专家系统仍然有效运作。

硬件门槛确实存在。最经济的方案是两台Strix Halo（约5000美元）或256GB的Mac Studio M3 Ultra（约7000美元）。也有人用192GB DDR5 + 36GB VRAM的配置跑IQ4，速度在6-8 tokens/秒。

评论区出现了两派观点。一派认为在Claude订阅只需每月几十美元的情况下，花7000美元买硬件跑一个"差不多但不完全一样好"的模型不划算。另一派则强调本地部署的价值：完全的控制权、隐私保护、不受服务商限制，以及应对未来可能的政策变化。

有网友提到，如果把这些硬件当作开发机来看，额外成本就没那么夸张了。Strix Halo或Mac Studio本身也是性能不错的工作站，只是顺便能跑大模型而已。

在实际应用中，有人发现MiniMax M2.5在一次性生成代码方面更强，但Qwen 3.5 397B在需要迭代调试的编程框架中表现更智能。也有人提到GLM-5在软件工程任务上仍然是最强的，尽管速度更慢。

一个值得注意的细节：网友测试了TQ1_0量化版本（极端压缩），在3090 + P40 + 48GB DDR5的配置下仍能达到9-10 tokens/秒。虽然TQ1_0通常被认为压缩过度，但实际结果出人意料地好。

还有人用Mac Studio 128GB通过MLX框架运行Q4量化版本，实现了9 tokens/秒的速度。甚至有开发者声称可以在只有6-9GB内存的MacBook Pro上通过SSD卸载的方式运行，虽然速度会慢很多。

关于速度，有网友做了个对比：DeepSeek 3.2在各大API服务商的平均速度在10-25 tokens/秒之间，11-15 tokens/秒其实在可用范围内。关键是任务类型——对于简单的代码补全，速度很重要；但对于复杂的架构设计和多文件重构，质量比速度更关键。

有个反直觉的观点：可能让27B模型做两遍任务，比跑一遍397B更高效。基准测试显示，27B在第二次尝试时就能接近397B的表现。

最后还有一些技术细节。用USB4连接两台机器做分布式推理，实际带宽能达到10Gbps，虽然比理论值低但足够用。通过llama.cpp的rpc-server可以实现负载分割，速度损失约10%。

这场讨论最有意思的地方不是某个模型有多强，而是整个社区在探索"本地AI"的边界时展现出的创造力。从极端量化到分布式推理，从硬件改造到软件优化，每个人都在用自己的方式突破限制。

09:42 · Mar 26, 2026 · Thu

Claude Code的技能系统：百个技能背后的九大类型与最佳实践 | 推文

Anthropic团队在Claude Code中实际使用了数百个技能，总结出9大类型和若干制作原则。技能的本质是可包含脚本、数据的文件夹系统，而非简单的文本说明。最有效的技能往往专注于“反常识”信息，通过渐进式披露避免过度引导。

技能系统已经成为Claude Code最常用的扩展机制。但灵活性也带来困惑：什么样的技能值得做？好技能的秘诀是什么？

Anthropic内部运行着数百个活跃技能。这些经验可能有参考价值。

一个常见误解是把技能当“markdown文件”。实际上，技能是包含脚本、素材、数据的文件夹——Agent可以发现、探索、操作这些内容。最有意思的技能都在创造性地使用配置选项和目录结构。

九种类型

技能大致分九类。好的技能清晰归属其一，混乱的往往跨越多个类别：

1. 库与API参考

解释如何正确使用内部库、CLI或SDK。包含代码片段库和常见陷阱清单。比如：billing-lib（内部计费库的边界情况和易错点）、frontend-design（让Claude更好地遵循设计系统）。

2. 产品验证

描述如何测试代码是否工作。常与Playwright、tmux等外部工具配合。有价值的做法包括：让Claude录制测试视频，在每步强制状态断言。值得工程师花一周时间打磨验证技能。

3. 数据获取与分析

连接数据和监控栈。包含获取数据的库、凭证、仪表板ID，以及常见查询工作流。例如funnel-query定义了“从注册到激活到付费”需要join哪些事件表。

4. 业务流程与团队自动化

将重复工作流自动化为一条命令。通常较简单，但可能依赖其他技能或MCP。保存之前结果到日志文件，帮助模型保持一致性。如standup-post聚合ticket、GitHub活动和Slack历史，生成格式化的站会更新。

5. 代码脚手架与模板

为特定功能生成框架样板。当脚手架有自然语言需求、无法纯靠代码覆盖时特别有用。

6. 代码质量与审查

强制执行代码质量。可以包含确定性脚本以提高鲁棒性，可能作为hook或GitHub Action自动运行。adversarial-review会生成一个“全新视角”的子Agent来批评代码，实现修复，迭代直到问题降级为吹毛求疵。

7. CI/CD与部署

帮你获取、推送、部署代码。babysit-pr监控PR、重试不稳定的CI、解决合并冲突、启用自动合并。

8. Runbook

接收一个症状（Slack线程、告警、错误签名），执行多工具调查，产出结构化报告。

9. 基础设施运维

执行日常维护和操作流程——有些涉及破坏性操作，需要护栏。比如<resource

制作要点

+ 别说废话

Claude Code已经了解你的代码库，Claude本身也懂编程。如果你的技能主要是知识传递，专注于那些能推Claude脱离默认思维的信息。frontend-design技能就是好例子——它通过与用户迭代，避免Claude总用Inter字体和紫色渐变。

+ 建立Gotchas章节

技能中信号最强的内容。这些章节应该从Claude使用技能时的常见失败点累积而来。你需要持续更新技能来捕获这些坑。

+ 利用文件系统与渐进式披露

技能是文件夹。把整个文件系统当作上下文工程和渐进式披露。告诉Claude技能里有什么文件，它会在合适时机读取。最简单的形式是指向其他markdown文件，比如把详细的函数签名和用例拆到references/api.md。你可以有references、scripts、examples等文件夹。

+ 避免过度引导

Claude会尽量遵循指令。因为技能高度可复用，小心别太具体。给Claude需要的信息，但保留适应情境的灵活性。

+ 考虑设置流程

有些技能需要用户提供上下文。比如发送站会到Slack的技能，可能要问发到哪个频道。好做法是在技能目录下存config.json。如果配置未设置，Agent就问用户。

+ 描述字段是给模型看的

Claude Code启动会话时，会构建所有可用技能的清单及其描述。这个清单是Claude扫描的依据——“有没有适合这个请求的技能？”所以描述字段不是摘要，是触发条件。

+ 记忆与数据存储

有些技能通过在内部存储数据来实现记忆。可以简单到追加日志文件、JSON文件，复杂到SQLite数据库。比如standup-post技能可能保存standups.log，记录每次发的内容，下次运行时Claude读自己的历史，知道昨天以来发生了什么。

技能目录中的数据可能在升级时被删除，应存到稳定文件夹，目前提供${CLAUDE_PLUGIN_DATA}作为每个插件的稳定存储。

+ 存储脚本与生成代码

给Claude代码是最强大的工具之一。给Claude脚本和库，让它把精力花在组合上、决定下一步做什么，而不是重构样板。比如数据科学技能可能有从事件源获取数据的函数库。为了让Claude做复杂分析，给它一组辅助函数。Claude随后即时生成脚本组合这些功能，回答“周二发生了什么？”这类问题。

+ 按需Hook

技能可以包含只在调用时激活、持续整个会话的hook。用于你不想一直运行、但有时极有用的强意见hook。例如/careful通过PreToolUse匹配器阻止rm -rf、DROP TABLE、force-push、kubectl delete。你只在知道要碰生产环境时才需要它——一直开着会逼疯人。

分发技能

共享技能有两种方式：

- 把技能签入repo（./.claude/skills下）

- 做一个plugin，建立Claude Code Plugin市场，用户可以上传和安装

小团队在少数repo间工作，签入repo效果不错。但每个签入的技能都会给模型增加上下文。规模扩大后，内部插件市场允许你分发技能，让团队决定安装哪些。

+ 管理市场

我们没有中心化团队决定；而是有机地发现最有用的技能。如果有技能想让人试用，可以上传到GitHub沙盒文件夹，在Slack等地方给链接。

一旦技能获得关注（由技能所有者决定），他们可以提PR移到市场。

警告：创建糟糕或冗余的技能太容易了，发布前确保有某种策展方法。

+ 组合技能

你可能想让技能互相依赖。比如文件上传技能，CSV生成技能制作CSV后上传。这种依赖管理还没原生内置到市场或技能中，但可以按名称引用其他技能，模型会在安装时调用它们。

+ 测量技能

为了了解技能表现，我们用PreToolUse hook记录公司内部技能使用情况。这样能找到受欢迎的技能，或相对预期触发不足的技能。

技能是强大而灵活的工具，但仍处于早期，大家都在摸索最佳用法。

把这些当作有用提示的集合，不是权威指南。理解技能的最佳方式是开始、实验、看什么有效。我们的大多数技能都始于几行字和一个坑，因为人们在Claude遇到新边界情况时不断添加而变好。

08:17 · Mar 26, 2026 · Thu

通过测试≠没有bug：AI编程的致命盲区 | 帖子

Claude 4.6写代码会埋下严重bug，自己却审查不出来。必须用Codex 5.4反复审核每次提交4遍以上。“通过测试”不代表没问题——AI太擅长写能通过的测试了。

有观点认为用传统工具——linting、类型检查、测试门槛——就够了。Sterling直接反驳：AI最爱干的就是写能通过测试的测试。这是个盲区。你可以让Claude在全新上下文中反复检查自己的代码，直到它说“没问题了”，然后Codex仍能揪出bug。

“通过测试就没bug”是个疯狂假设。

代码可能运行完美，测试全绿，但藏着一个细微的深层误解，毁掉整个系统的意义，导致灾难性故障。这种错误，传统validator抓不到，单元测试也无能为力，因为模型已经被过度优化成“写通过测试的代码”。

为什么不直接让Codex写代码？Sterling说Codex像个教导主任，过度优化“正确代码”，却错失系统真正目的（telos）。太官僚了。Claude更适合日常驾驶，但需要Codex这个苛刻的审计员盯着。

有开发者开始探索plan-with-codex模式：让Claude做计划，Codex审核，两者循环直到Codex批准——在写代码前就把错误拦住。另有人用多模型代码审查：Opus负责架构逻辑，Codex抓安全漏洞，Kimi K2.5查性能问题，Sonnet 4.6管代码风格。

一个被反复引用的回复：你得让它完全重写代码，从根本上消除那类bug的可能性。否则就是无限循环，让agents猜这个bug是不是“真的”、“重要的”。

03:28 · Mar 26, 2026 · Thu

Cursor“套娃”风波：Kimi模型背后的三方博弈 | 帖子

Cursor Composer被曝基于Kimi K2.5，引发授权争议。最终确认Cursor通过Fireworks获得合法授权，但转售商机制让原开发者蒙在鼓里。这场乌龙暴露了AI供应链的不透明性。

事情比想象中平淡。Moonshot通过Fireworks提供白标服务，Cursor走的是这条线。协议可能允许隐去基础模型名称，所以Moonshot一开始根本不知道Cursor在用他们的东西。

有观点认为，Moonshot员工最初在社交媒体上的反应可能违反了保密条款，事后才被管理层叫停。也有人怀疑这是事后补救——Cursor被抓包后火速谈妥协议。但Kimi用的是修改版MIT协议，本就允许商用，只是要求披露模型名称。Fireworks作为中间商，或许本就有权剥离这个条款。

中国开源模型处境微妙。Qwen团队遭裁，M2.7转闭源，DeepSeek V4悄然延期。有网友提到，下一代中国模型可能全面闭源。

Cursor声称自己完成了75%的训练，基础模型只占25%算力。这个说法有些站不住脚——如果真有这能力，为什么还要借别人的基础模型？算力从来不是全部，不然谁都能从头训练了。

转售机制本身没问题，但它确实制造了信息不对称。用户以为在用Cursor的独家模型，实际上运行的是Kimi。开发团队可以撇清关系，原模型方毫不知情，平台商稳赚中介费。这套系统精巧得让人不安。

03:26 · Mar 26, 2026 · Thu

CLAUDE.md不是规则手册，而是路由器 | 帖子

CLAUDE.md文件超过100行后，AI会选择性忽略指令。解决方法不是添加更多规则，而是将执行逻辑从指令转移到基础设施——用自动化钩子（hooks）强制质量检查，用技能文件（skills）按需加载上下文，用campaign文件持久化会话状态。

有人做了个审计，发现自己的CLAUDE.md有40%的冗余内容。规则在不同措辞下重复，甚至自相矛盾。文件从45行膨胀到190行，AI的服从度反而下降了。

问题的根源在于：CLAUDE.md是入口点，不是永久仓库。它应该只包含项目概览、技术栈和最关键的5件事。其他所有东西都该放在AI需要时才加载的地方。

真正改变游戏规则的转变是：把执行逻辑从指令转移到环境中。

比如“编辑文件后总是运行类型检查”这条规则，AI有时遵守，有时忘记。解决方案是用生命周期钩子——每次保存文件自动运行脚本。AI不需要选择是否检查，环境强制执行。错误在引入的那次编辑中就会暴露，而不是20次编辑后才发现。

规则会降级，钩子不会。

这套思路可以推广到所有场景：跨会话的重复指令变成技能文件，编码特定领域的模式和约束；会话上下文丢失用campaign文件解决，记录已完成的工作、做过的决策和剩余任务；质量验证变成自动化钩子，每次编辑时类型检查，会话结束时扫描反模式，连续3次失败后触发熔断器。

有观点认为，CLAUDE.md的变更本质上是软件变更，不是提示词调整。当它影响整个团队时，需要像对待代码一样严格：建立基线、测量效果、逐步推出、支持回滚。

另一个发现是：超过100行的指令开始被当作建议而非规则。有人将文件从150行精简后，合规性立即提升。

进化路径大致是：原始提示词（无持久化）→ CLAUDE.md（规则有帮助但有上限）→ 技能文件（模块化专业知识，按需加载）→ 钩子（环境执行质量）→ 编排（并行agent、持久化campaign）。

一位开发者分享了自己的系统：顶层CLAUDE.md是路由器，将任务类型映射到子目录；每个子目录有自己的作用域CLAUDE.md；可重复的多步骤工作流打包为技能文件；定期任务审计文件行数、冗余和过时内容。

有网友提到了渐进式工具披露的技巧：不为每个功能都构建MCP服务器，而是写HTTP端点，用shell脚本包装，格式化输出给AI。这样可以逐步暴露工具，几分钟就能添加新功能。

成本控制也遵循同样的原理。每次AI超支时添加规则（“不要在这个任务上用Opus”）没用，30条模型选择规则AI照样忽略。真正有效的是代理层，自动根据复杂度路由，带预算强制执行。有人的AI在8分钟内烧掉15美元，添加规则没用，把决策从提示词移到基础设施才解决问题。

一个值得注意的细节：Anthropic官方插件市场有claude-md-management工具，可以审计CLAUDE.md质量，捕获会话学习，已有76000+安装量。

整个讨论的共识是：臃肿的CLAUDE.md是普遍的成人礼。解决方案不是更多规则，而是构建基础设施。

作者开源了完整系统Citadel

03:23 · Mar 26, 2026 · Thu

三条隐藏指令让Claude不再“胡编乱造” | 帖子

一位开发者在构建每日研究工作流时，偶然发现了Anthropic文档中的“减少幻觉”页面。三条简单的系统提示指令，彻底改变了Claude的输出质量。

第一条：“允许Claude说我不知道（Allow Claude to say I don't know）”。没有这个指令，Claude会用听起来合理的虚构内容填补知识空白。有了它，你会真正得到“我没有足够信息回答这个问题”的回复。听起来简单，但默认行为是无论如何都要给出答案。

第二条：“用引用验证（Verify with citations）”。告诉Claude每个断言都需要来源，找不到就收回。开启这个后，许多之前听起来很权威的陈述直接从输出中消失了，因为根本没有依据。

第三条：“用直接引用进行事实验证（Use direct quotes for factual grounding）”。强制Claude在分析前先从文档中提取逐字引用。这能阻止“释义漂移”，模型在总结时会微妙地改变含义。

单独使用每一条都有帮助，三条一起用会根本性地改变输出质量。

但有个权衡。一篇论文（arXiv 2307.02185）发现，引用约束会降低创造性输出。所以这位开发者做了个切换开关：研究模式激活全部三条，默认模式让Claude自由思考。

奇怪的是，这些都公开发布在Anthropic的平台文档上。并不隐蔽。但问了一圈用Claude开发的人，没人见过它。

有用户将这些指令应用到客服机器人后，效果立竿见影。之前Claude会自信地回答FAQ之外的问题，编造看似合理的答案。现在遇到没有的信息，它会说“我没有这方面信息，让我为您联系店主”，而不是瞎编。

社区讨论的焦点是：为什么这些不是默认设置？

答案很现实。对于编程、头脑风暴、写小说这类任务，你希望Claude做出跳跃性的联想和连接。强制这些约束会让创造性工作变得糟糕。对某些用户最好的设置，对其他人可能是灾难。

有人建议让Claude给出“置信度百分比”，但这个想法被社区强烈否定。任何Claude给出的置信度分数本身就是一种幻觉，它衡量的是统计上的词语选择，不是事实准确性。

更高级的做法是在自定义指令中创建可切换的“研究模式”，用斜杠命令（如/research）为某个会话激活这些规则。

一位用户分享了他的系统提示：将Claude定位为研究协作者而非权威，标记置信度水平，为每个概念提供至少两个类比，并明确说明每个类比的局限性。对每个理论，识别它失败的具体条件。

这不是万能药。这只是众多可能的防护栏中的几个，不要以为它能完全消除幻觉。但如果你需要事实准确性而不是创意输出，这三条指令值得一试。

01:16 · Mar 23, 2026 · Mon

Anthropic威胁OpenCode移除Claude集成引发争议 | 帖子

Anthropic要求开源项目OpenCode移除所有Claude相关功能，包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式，官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满，许多人开始转向ChatGPT。

Anthropic有两款产品：按使用量计费的Claude API，和包月订阅的Claude Code。订阅价格看起来便宜得多，实际上是Anthropic有意补贴，目的是把用户锁定在自家工具里。

OpenCode和OpenClaw这类第三方工具，一直允许用户用订阅账号调用Claude模型。用户觉得这很合理——我付了钱，为什么不能选自己喜欢的工具？但Anthropic明确表示：订阅只能用于官方客户端，想用第三方工具就得按API价格付费。

有观点认为，这种做法类似于Gmail早期提供1GB存储空间，结果有人开发了GmailFS把邮箱当网盘用，Google最后修改了服务条款。看起来是在保护商业模式。

但用户的愤怒不难理解。OpenCode的体验比Claude Code更好，功能更丰富，Token消耗却不会更多——订阅本身就有使用上限。Anthropic的限制并非出于成本考虑，而是担心用户发现：离开Claude Code后，换用其他模型轻而易举。

更耐人寻味的是时机。有人注意到，Claude Code最近一个月表现明显变差，怀疑是在后台偷偷把更多任务分配给便宜的Haiku和Sonnet模型，以应对DoW事件后暴增的使用量。也就是说，Anthropic可能正在牺牲高价订阅用户的体验，用来补贴低价用户增长。

一位用户的遭遇很有代表性：因为用OpenCode被封号，换了邮箱重新订阅，只用官方工具，结果还是被封。他说，从没见过一家科技公司对用户这么敌视，包括90年代的微软。

不少人已经转向Codex配合$200/月的OpenAI订阅。Claude的模型优势正在缩小，而工具生态的封闭正在加速这个过程。Anthropic团队给人的感觉是，他们觉得自己在造神，普通用户的需求无足轻重。

01:07 · Mar 23, 2026 · Mon

Agent时代，纯知识模型还有存在价值吗？| 帖子

当整个行业都在追逐Agent能力时，有人想要的只是一个「博学」的模型——不需要写代码、不需要调用工具，就像离线版的全知百科。但这个需求在2025年似乎已经过时了。

三年前接触LLM，是为了摆脱搜索引擎那糟糕的信噪比，获取贴合场景的定制化知识。现在所有实验室都在堆Agent能力，这让人困惑：有限的参数预算下，强化工具调用是否会削弱模型本身的知识储备？

有观点认为知识量与参数数直接相关。测试Qwen3.5时发现，35B的MoE在Q4量化下的幻觉比27B密集模型的Q5还多，即便27B降到IQ3、显存只占12GB，仍比20GB的35B更可靠。规模更大的MoE能否改善这一点？

前沿实验室似乎已经放弃了纯知识路线。合成数据（chain-of-thought、工具使用轨迹）让模型更擅长推理，但训练算力有限，知识广度成了牺牲品。Tulu 3是个例外，它基于更多自然语料而非合成推理数据训练。

但「知识」和「认知」的界限本就模糊。如果只想要信息源，小模型+搜索工具就够了。但要让AI真正教学、解释、适配目标，你需要的不是知识堆砌，而是认知能力——这恰恰就是Agent。

有人提出解决方案：用Qwen3.5-9B这样的小模型，配上搜索工具，在系统提示词里列出可信来源优先级。模型的任务不是记住所有事实，而是知道去哪找、如何用。这比让405B模型硬记维基百科高效得多。

实际上，即使是Claude Opus这样的顶级模型，最近在简单常识问题上也开始失误，稍加质疑就会反复翻转立场。GPT-4在2023年的领域深度记忆比某些更新的「更聪明」模型还好，因为它没被过度调优成输出格式工具。模型正在被训练成「外包者」而非「思考者」。

有网友提到，依赖模型内置知识风险极高——幻觉不可靠，就算有知识也容易出错。现在的大context和工具调用能力下，引用外部知识才是正道。

仅英文维基百科未压缩就有10TB。没有哪个「本地规模」模型能装得下所有事实。知识需要参数，也需要正确使用这些参数的能力。

最接近「全知百科」的配置：Qwen3.5 397B（密集模型）+ 维基百科/Wikidata的RAG，一个9B模型配好检索能打败裸奔的70B。或者试试GLM-5、Kimi-K2.5、DeepSeek V3.1这些新的超大模型。

核心矛盾在于：谁来定义「真相」？LLM从来不是魔法真理机器，它需要海量已知真相来训练。真相是相对的，判断是用户的工作，不是模型的。

模型会过时，这就是为什么实验室都转向推理能力+搜索工具，而非单纯喂数据。知识不是终点，上下文和推理才是实际使用中更重要的东西。

01:04 · Mar 23, 2026 · Mon

OpenAI的1000倍工程师神话 | 帖子

OpenAI宣称现在已经出现“1000倍效率”的工程师，但一线开发者的反馈却截然不同。AI工具确实有帮助，但远非那种“一个顶一千个”的革命性飞跃，而且持续指导AI、检查修正其输出反而让工作更累了。

有观点认为，这种说法把工程工作变成了一场对抗虚构完美标准的竞赛，最糟的是让人永远觉得自己落后了。

真正在用AI写代码的人怎么说？一位开发者提到：“AI根本无法独立完成工作。我必须全程在场指导它、引导它、检查它的成果、纠正错误……这些模型输出token的流从不停歇，和AI协作实际上很累人，即使我几乎不再亲手写代码了。”

更值得警惕的是长期风险。AI生成的代码在短期内看起来运行良好，但时间一长可能会出现无法修复的bug，到那时只能推倒重来。问题是后果往往来得很晚，但伤害已经造成。

当然，也有开发者表示最近几个月没遇到“无法修复需要重启”的问题，但前提是有成熟的开发流程：系统化的规划、详细的技术规格、测试、上下文管理和代码审查，在AI写任何一行代码之前就做好准备。这更接近“智能体工程”而非单纯的AI代码生成。

有传言称一些顶尖工程师在AI credits上的花费已经接近年薪，大型科技公司可以轻松追踪工程师的算力消耗和产出，甚至可能搞出反乌托邦式的绩效排行榜。如果拿一个完全不用AI的工程师做对比，所谓的“1000倍工程师”可能只是lines of code游戏。

一位开发者的评论很现实：“就算有了成千上万美元的tokens和数百小时专家级prompt调教，Claude也做不了我为了通过高年级开发课必须做的事。”

这些夸张数字更像是营销团队为了吸引投资者而堆砌的修辞。真要出现几个100倍工程师，产品团队跟不上，QA跟不上，销售、运营、客服都会掉队，业务流程会直接崩溃。

00:54 · Mar 23, 2026 · Mon

这个Claude技能让你的AI提示词不再浪费额外Credits | 帖子

一个名为prompt-master的开源Claude技能在一周内获得600+星标。它能根据你使用的AI工具（Cursor、Midjourney、Claude Code等）自动生成最优提示词，避免重复调整和浪费Credits。工具已支持35种常见错误模式修正和12种任务模板。

提示词优化工具并不新鲜，但这个项目的核心竞争力在于“工具特定路由”。

同样是生成吉卜力风格的东京夜景俯视图，给Midjourney的提示词是45个token的逗号分隔描述符，先锁定相机角度防止模型默认街景构图，再叠加视觉线索。给DALL-E 3的提示词则变成80个token的散文句式，末尾专门加上“不要在图像中包含任何文字或字母”来抑制它爱出现的随机文本伪影。

这种差异不是表面功夫。Cursor和Claude Code的上下文管理逻辑完全不同，用同一套提示词会直接崩。ComfyUI用户在用Stable Diffusion 1.5、SDXL还是Flux，输出结构都不一样，需要分别生成正向和负向提示块。甚至向o1模型添加思维链反而会降低效果，这是35种“烧Credits模式”中的一种。

有观点认为直接跟Claude Code像跟人聊天一样就行，出错了再说要改什么。开发者的回应很务实：这能省Credits，也能让模型理解更清晰。但更重要的是使用场景远不止对话，图像、视频、研究、演示、配音，每个领域的最佳实践完全不同。

项目在7天内从600星涨到900星，期间社区持续提出支持新工具的请求：Figma Make、Kimi 2.5、Ollama、Google Stitch。开发者几乎全天候在评论区确认兼容性，甚至当天就为特定用户添加了SeeDream和LTX 2.3的路由。v1.4刚发布，v1.5已经在规划agent支持。

整个项目像是在验证一个简单但容易被忽视的事实：AI工具之间的差异比我们想象的大得多，通用方案在具体场景下往往意味着妥协。

00:53 · Mar 23, 2026 · Mon

告别千篇一律的AI审美，TypeUI 让 Claude 学会48种设计语言 | #工具

开发者elwingo1用两周时间做了个开源项目TypeUI，提供48个设计skill文件给Claude用，让AI生成的网站不再千篇一律。每个文件就像给AI装了一套设计语言，还能通过CLI自定义颜色和字体。

这个项目不是从零开始的。elwingo1四五年前创立了UI库Flowbite，有设计背景，看到大家从传统设计系统转向AI工具后，决定把多年的设计品味转译成AI能理解的指令。

skill文件本质上是人工策展的设计规则。elwingo1强调“AI需要被推向正确的方向”，他和朋友正在开发“增强版”skill文件，加入阴影、边框等更细致的规则，甚至考虑做可视化编辑器，让设计规则能跨项目同步。

使用很简单，直接下载skill文件添加到Claude，或者用命令`npx typeui.sh pull [主题名]`。有网友提到“真正的技巧是在skill文件里写布局规则，比如'每行最多3张卡片'或'统一用8px栅格'”，这样能省去大量来回调整。

项目托管在GitHub，所有文件都能在awesome-design-skills仓库找到。有人问能不能生成Figma文件，elwingo1说理论上可以通过生成Figma的JSON实现。也有网友上传自己喜欢的网站截图，用`npx typeui.sh generate`让AI反向生成对应的skill文件。

Google最近推出了类似工具，但TypeUI的优势是不绑定特定模型，Claude、Gemini都能用。有观点认为这类设计系统的未来在于将视觉规则标准化，让非设计师也能保持设计一致性。

工具

00:44 · Mar 23, 2026 · Mon

德鲁克管业务，芒格看决策，马斯克推执行——六位大师全跑在我的工作系统里 | 推文

一位创业者将德鲁克、乔布斯、原研哉、芒格、巴菲特、马斯克六位大师的思维框架装进AI系统，构建了一套多顾问决策机制。每位“顾问”负责不同领域：德鲁克审视客户价值，乔布斯打磨产品体验，原研哉精简系统架构，芒格提供多维决策，巴菲特聚焦护城河，马斯克推动执行。这不是玄学，而是基于Claude Code的可运行架构。

德鲁克砍掉了作者90%“感觉对”的想法。他只问两个问题：你的客户是谁？你在为他们创造什么价值？三个看似不错的新功能死在这两个问题下，死得其所。

乔布斯让“够好”变得不够好。产品页面内容砍掉一半，转化率反而上升。原研哉更狠，他问的不是“怎么做得更好”，而是“这个东西有没有必要存在”。工作区删掉60%的文件夹和流程后，剩下的40%运转更顺了。

芒格用多元思维模型拆解决策——物理学思考时间，心理学思考人性，经济学思考激励。他帮作者识别了两次“感觉很好但实际是陷阱”的机会。

巴菲特只做一件事：帮你拒绝。每次焦虑要不要跟上某个新趋势，他都会说：专注你能做到最好的那件事，其他的无视。这是作者坚持做“高端窄众”留学业务、而不是“什么都做”的底层逻辑。

马斯克只有一个问题：你为什么还没开始？他用第一性原理拆解每一个“做不到”——这是真正的限制，还是你自己设的边界？至少三件事从“打算做”变成了“已经发布”。

这套系统基于Claude Code的Agent Team功能，配合定制化Skill运行。每位顾问有专属提问框架、专属决策领域、专属刹车机制。架构对应作者实际运行的三将军体系：马斯克直属推动执行，Jobs和原研哉服务增长将军，德鲁克、芒格、巴菲特服务商业将军。

有观点认为，这种做法本质是将世界级思维体系转化为可调用的决策模块。与其从零摸索，不如让巨人的思维成为系统的一部分。

作者强调，这不是固定答案，只是抛砖引玉。每个人的业务场景不同，需要的顾问也不同。重点不是照搬模板，而是找到自己尊敬的人，提取他们最核心的3个原则，装进系统提示词。

这套体系需要长期磨合、持续迭代。但越早开始搭建，就越早拥有一套真正属于自己的决策系统。