黑洞资源笔记

00:44 · Mar 23, 2026 · Mon

德鲁克管业务，芒格看决策，马斯克推执行——六位大师全跑在我的工作系统里 | 推文

一位创业者将德鲁克、乔布斯、原研哉、芒格、巴菲特、马斯克六位大师的思维框架装进AI系统，构建了一套多顾问决策机制。每位“顾问”负责不同领域：德鲁克审视客户价值，乔布斯打磨产品体验，原研哉精简系统架构，芒格提供多维决策，巴菲特聚焦护城河，马斯克推动执行。这不是玄学，而是基于Claude Code的可运行架构。

德鲁克砍掉了作者90%“感觉对”的想法。他只问两个问题：你的客户是谁？你在为他们创造什么价值？三个看似不错的新功能死在这两个问题下，死得其所。

乔布斯让“够好”变得不够好。产品页面内容砍掉一半，转化率反而上升。原研哉更狠，他问的不是“怎么做得更好”，而是“这个东西有没有必要存在”。工作区删掉60%的文件夹和流程后，剩下的40%运转更顺了。

芒格用多元思维模型拆解决策——物理学思考时间，心理学思考人性，经济学思考激励。他帮作者识别了两次“感觉很好但实际是陷阱”的机会。

巴菲特只做一件事：帮你拒绝。每次焦虑要不要跟上某个新趋势，他都会说：专注你能做到最好的那件事，其他的无视。这是作者坚持做“高端窄众”留学业务、而不是“什么都做”的底层逻辑。

马斯克只有一个问题：你为什么还没开始？他用第一性原理拆解每一个“做不到”——这是真正的限制，还是你自己设的边界？至少三件事从“打算做”变成了“已经发布”。

这套系统基于Claude Code的Agent Team功能，配合定制化Skill运行。每位顾问有专属提问框架、专属决策领域、专属刹车机制。架构对应作者实际运行的三将军体系：马斯克直属推动执行，Jobs和原研哉服务增长将军，德鲁克、芒格、巴菲特服务商业将军。

有观点认为，这种做法本质是将世界级思维体系转化为可调用的决策模块。与其从零摸索，不如让巨人的思维成为系统的一部分。

作者强调，这不是固定答案，只是抛砖引玉。每个人的业务场景不同，需要的顾问也不同。重点不是照搬模板，而是找到自己尊敬的人，提取他们最核心的3个原则，装进系统提示词。

这套体系需要长期磨合、持续迭代。但越早开始搭建，就越早拥有一套真正属于自己的决策系统。

00:38 · Mar 23, 2026 · Mon

在线开发中，构建高效智能AI代理系统是一大挑战，各种技能、记忆管理、安全检测、持续学习等环节缺一不可。

Everything Claude Code 是一套开源的AI代理性能优化系统，专为Claude Code、Codex、Opencode、Cursor等多平台AI工具打造。

它不仅集成了丰富的智能子代理（code-reviewer、security-reviewer等），还有自动学习的“本能”系统，助力代码质量、测试驱动开发、自动安全扫描，真正实现生产级别的多技能智能协同。

主要功能：

- 多平台全兼容，支持Claude Code、Codex、OpenCode、Cursor等主流AI编码工具；
- 完善的技能库，覆盖测试驱动开发、代码审查、安全审核、E2E测试、文档更新等工作流；
- 强大的Hook机制，自动触发格式化、secret扫描、上下文持久化等操作；
- 持续学习系统，自动提取开发“本能”，提升智能决策能力；
- 多Agent协作支持，拆解复杂任务、多线程执行更高效；
- 集成AgentShield安全扫描，1282项规则全面保障代码安全；
- 详细操作指令和跨平台安装脚本，2分钟极速上手。

适合开发者、团队追求极致AI辅助开发体验的必备利器。

00:34 · Mar 23, 2026 · Mon

GitAgent：让AI智能体也能Code Review

GitAgent提出了一个新思路：把GitHub仓库本身变成AI Agent的身份、记忆和技能载体。这意味着AI智能体的所有行为都可以像代码一样被版本控制、审查和复现。

GitAgent的核心想法简单得让人想拍大腿：既然我们已经用Git管理代码，为什么不直接用它来管理AI Agent？

当prompts、工具和行为逻辑都存进代码仓库，你终于可以像review代码一样review一个AI的“人格”了。有网友提到，这种“把repo当作agent真相来源”的做法感觉对了——一旦提示词和行为都进了版本库，你就能diff它们，看到AI究竟在哪次commit变“聪明”或变“蠢”了。

这解决了一个被低估的痛点。

现在训练AI Agent像炼丹，成功了也不知道为什么，失败了更说不清。GitAgent让智能体开发告别“在我机器上能跑”的混沌状态，进入可追溯、可复现的工程化阶段。它兼容OpenAI、Claude、CrewAI等多个框架，像一套统一的“智能体操作系统”。

00:33 · Mar 23, 2026 · Mon

Claude官方用例库：被低估的AI能力指南 | blog

Claude官方用例页面展示了远超日常聊天的深度应用场景，涵盖研究、写作、代码和分析等领域。多位开发者反馈，这个页面不只是示例集合，更像是一套提示词工程教程，每个案例都在演示如何精确地提出需求。

有开发者扔进去两篇毫无关联的产品吐槽，Claude整理出了一份用户真正买账的功能提案。这种综合能力让人意外——它不是简单拼凑信息，而是能找到碎片之间的内在逻辑。

用例页面涵盖自动化研究、金融压力测试、多源信息整合，展现的深度远超预期。有观点认为，大部分团队直接扑向API文档和提示词技巧,跳过了这个环节。但看到实际可能性，会影响你设计整个系统的方式。

更有价值的视角是：别把它当案例集,当成提示词课程来读。每个示例都在演示如何精确构建请求。浏览者看到的是“酷炫示例”，真正获益的人把它当工程师手册研读。

结构化输出的质量,在复杂任务中表现超出预期。这不是营销话术，是实际工作流中跑出来的结论。

也有人提到反差：一边是花几千美元token费用却不知道从何下手的建设者，一边是把官方页面当教材反复研究的开发者。工具的能力边界，很多时候取决于使用者如何提问。

00:29 · Mar 23, 2026 · Mon

Codex Subagents：136个AI专业分身让编程效率起飞

一个开源项目收录了136个针对Codex的专业化AI助手，覆盖从前端开发到安全审计的各个领域。每个Agent都有独立的上下文窗口和专门指令，能像真实团队成员一样处理特定任务。关键是这些Agent不会自动触发，需要明确指派。

AI编程助手的进化方向可能不是更强的单一模型，而是一群各司其职的专家。

这个叫awesome-codex-subagents的GitHub仓库里，藏着136个经过精心调教的AI分身。前端有React专家，后端有Go并发高手，安全审计、性能优化、数据库调优，甚至Active Directory管理都有对应的Agent。

每个Agent都是一个.toml配置文件，指定模型、沙盒权限和专业指令。比如security-auditor用gpt-5.4处理深度推理任务，search-specialist用更快的gpt-5.3-codex-spark做信息检索。审查类Agent设为只读权限，开发类Agent可以修改代码。这种设计既保证专业性，又控制权限范围。

00:26 · Mar 23, 2026 · Mon

距离AGI还有多远？Google提出基于认知科学的评估体系 | blog

Google DeepMind发布了一个基于认知科学的AGI评估框架，提出了10项关键认知能力作为衡量标准，并在Kaggle启动黑客松邀请研究者共建评估基准。与此同时，社区对LLM是否代表通向AGI的正确路径展开激烈讨论。

Google试图用一套认知分类学来量化AGI进展：感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决和社交认知。他们还启动了一个20万美元奖金的Kaggle竞赛，让社区帮忙设计评估工具。

听起来很学术，但问题在于——这套框架本身就暴露了我们对AGI定义的混乱。

有观点一针见血地指出：一个20万年前的穴居婴儿如果在现代养育，智力水平不会比今天的人差。真正的智能不是知识堆砌，而是那种能够推理、想象、创造的内核。LLM擅长的是从海量文本中提取模式，这和人类的认知方式根本就是两码事。

更讽刺的是，Google选择用众包的方式来定义评估标准。有网友调侃：“AGI现在被定义为'能赚一万亿美元利润的东西'。”这不是在测量智能，这是在移动球门柱。

LLM确实在很多任务上表现惊人，但把“能做很多事”等同于“通用智能”是个危险的误区。它们像一面镜子，映射出人类在语言中留下的痕迹，却没有自己的世界模型。每次对话结束，它们就“死”了，下次开启是全新的。这种没有连续性的存在，谈何意识？

真正值得关注的不是这些框架，而是我们为什么如此急切地想要证明已经接近AGI。也许答案很简单：数万亿美元的估值需要一个故事来支撑。

00:22 · Mar 23, 2026 · Mon

AI暴露的真问题：你追求的到底是知识还是信息？

AI冲击的不是知识本身，而是那些停留在信息搬运层面的“伪知识”。真正的知识价值在于提出问题、做出判断，而不是记住答案。DeepSeek这类工具的出现，实际上提高了知识的门槛，让脑力训练成为刚需。

知乎上有个问题问得很焦虑：当毕生追求的知识在AI面前毫无价值，如何重建存在的意义？

这问题本身就暴露了一个认知盲区。

有观点一针见血地指出：真正追求知识的人，看到AI只会兴奋，因为终于有了足够强大的陪练。而那些感到威胁的人，恐怕从一开始追求的就不是知识，而是信息的堆砌。

过去二十天，身边人用DeepSeek的方式已经分化得很明显。有人用它生成工作汇报，有人用它算命理八字，有人让它裁判成都和重庆谁更牛。

这些用法没什么错，但总让人想起科幻小说里的场景：你都能超光速通讯了，第一反应居然是这样收谷子更方便。发明了激光剑，却用来劈柴。

DeepSeek真正的价值在别处。

它是个信息浓度极高的知识富矿。现在想找到密集的脑力刺激太难了，书店里成功学和心理学占据主流，知乎也从上古大神时代变成情绪驱动的键政广场。而DS像是把那些跨领域的聪明人召唤到你面前，随时待命，永远有耐心。

有人做过一个实验：让DS假设自己是人类，问DS会问什么问题，然后把DS输出的问题再喂给它，看它左右互搏。两个小时下来，记录下那些没想到的角度、没听过的专业名词，直接规划出几周的学习清单。

这不是取代知识，而是把获取知识的带宽拓宽了几十倍。

以前深入了解一个行业，要从公开信息翻到研报，被垃圾信息淹没，在沼泽里蹚一个月。现在相当于有人帮你做了初步筛选和整合，直接把高浓度信息冲刷过来。对那些大脑算力闲置的人来说，这是跑满GPU的机会。

但这也意味着知识的门槛提高了。不是随便记点信息就能算知识，你得会提出问题。

知识和问题是两回事。问“李白是哪个朝代的人”，这是知识。问“唐朝的族望观念如何影响了李白的诗风转变”，这才是问题。前者AI秒答，后者就算AI给了答案，你也得判断它说得对不对、能不能用。

这种判断力不可能来自AI。你得自己先了解大量李白的资料，才可能问出有价值的问题，才能辨别AI的胡说八道。

本科生学的是知识，博士干的是找问题。绝大多数人停留在中小学和本科阶段学到的那层“知识”，所以会觉得AI把自己的饭碗抢了。但人真正的价值从来不在记忆既有经验，而在探索未知。

生活处处是问题。相亲对象有些方面不错有些不理想要不要继续？职场遭遇瓶颈该不该转行？手里几万块该买什么股票？该在哪买房、孩子该不该出国、要不要离婚？

这些问题AI可以分析，但最后还得你自己决策。AI只是参谋，你才是做决定的人。

荀子两千多年前就说透了：君子生非异也，善假于物也。你练了一辈子功夫敌不过子弹，正确的反应不是纠结存在意义，而是学会开枪。因为别人根本不关心你的纠结，只会直接扣动扳机。

现阶段的DS虽然很猛，但还不至于让“毕生追求的知识毫无价值”。出现这种焦虑，要么是工作本身就是简单重复，要么是所谓的知识只停留在信息摄取层面，从没进一步总结发散过。

未来AI也许真能完全取代人脑的某些功能，但驾驭AI的永远是那些脑力强于普通人、一直把AI当陪练的人。不是那些震撼于“AI会写诗了”就觉得可以偷懒的人。

AI时代的脑力马太效应会以新形态出现：把DeepSeek用来强化自己大脑的人，会吊打那些只把它当外骨骼、处理功能性事务的人。

不是强者愈强，而是会用工具提升自己的人，与只会用工具偷懒的人，差距会越拉越大。

00:14 · Mar 23, 2026 · Mon

无限上下文来了，RAG却没死：时效性、可追溯性与成本的三重考验

无限上下文解决的是“装得下”的问题，RAG真正的价值在于知识的时效性、可追溯性和成本控制。检索是最脆弱的一环，但长上下文也有Lost in the Middle问题——模型对中间内容的关注会衰减。未来可能不是二选一，而是分层检索加长上下文精读的协作。

讨论“RAG会不会死”之前，得先问清楚一件事：RAG到底在解决什么问题。

很多人以为RAG的核心价值是扩展上下文——模型只能看4k token，文档有几百万token，所以用RAG检索相关片段塞进去。这个理解没错，但它描述的是RAG最浅、最容易被替代的那一层价值。

长上下文确实在进步。从4k到200万token，技术突破令人兴奋。但“支持多长”和“能有效利用多长”是两件完全不同的事。Lost in the Middle论文的结论让人不太舒服：模型对上下文头部和尾部的信息利用效率，显著高于中间部分。上下文越长，中间那些内容被有效关注到的概率越低。

不是模型看不到，是模型没在认真看。

Transformer的注意力机制理论上可以关注序列里的任意位置，但随着序列长度增加，计算复杂度是O(n²)的。工程上有各种近似手段处理，但近似就意味着信息损失。你把100万token塞进上下文，模型在每一步生成时，对这100万token的“关注”是不均匀的，是有衰减的，是会遗漏的。

有团队做过对比实验：文档数量少的时候，长上下文方式表现不错；文档一多，检索增强的方式在准确率上有明显优势。

一个人把图书馆里所有书都塞进脑子里，和他知道去图书馆怎么查书，不是一回事。

RAG真正在解决三个性质完全不同的问题。

第一是知识的时效性。模型训练完，参数就冻结了。它知道的，是训练截止日期之前的世界。你问它昨天发生了什么，它不知道。知识库今天更新了一条新政策，不需要重新训练模型，只需要更新向量数据库，下次检索就能拿到最新的内容。这是一个架构层面的优势，不是“更长的上下文”能覆盖的。

第二是知识的可追溯性。企业把AI接入内部知识库，法务部门的第一个问题是：这个回答基于哪份文件的哪个段落？如果回答错了，谁负责？RAG天然提供了这个能力。检索到了哪些文档，哪些段落，完全可追溯。

长上下文模型把100万token塞进去，然后生成一个回答——你很难知道这个回答是基于哪部分内容生成的。对于医疗、法律、金融这些需要严格合规和审计的行业，可追溯性不是锦上添花，是准入门槛。

第三是成本。100万token的上下文，每次调用的成本是多少？如果你有一个企业知识库，里面有几万份文档，每次用户提问都把整个知识库塞进上下文——这个成本会让绝大多数商业应用直接死掉。RAG检索出来的相关片段，通常是几百到几千token。同样的任务，成本差一到两个数量级。

有人会说，推理成本以后会降。但“将来可能便宜”不等于“现在可以忽略”，更关键的是，即便成本降到零，前面两个问题——时效性和可追溯性——成本降低也解决不了。

RAG当然有致命缺陷。检索是最脆弱的一环——如果检索没找到正确的文档，后面的生成做得再好也救不了。错误的前提只会生成更流畅的错误答案，这比直接说不知道更危险。

传统的基于embedding的语义检索，在多跳推理任务上表现很差。你问“A公司现任CEO毕业于哪所大学”，这需要两步：先找到A公司的CEO是谁，再找到这个人的教育背景。如果这两个信息在不同的文档里，单次检索很可能只拿到其中一个。长上下文模型在这类问题上有天然优势——它可以在一个连续的推理过程里处理多步跳转，不依赖外部检索的准确性。

还有一类知识，根本没办法用文档来表达，也没办法通过检索来获取。语言的语感、代码风格的直觉、复杂推理的能力、跨领域的类比……这些东西存在于大量训练样本的统计规律里，是模型在预训练过程中从海量数据里隐式习得的。你没办法写一份文档叫“如何有语感地写中文”，然后把它检索进来。

但更有意思的不是“RAG和长上下文谁赢”，而是这两个东西组合起来能做什么。

用RAG做粗筛——从几万份文档里把相关度最高的几十份找出来，然后用长上下文模型对这几十份文档做精细的理解和推理。这是两个技术的协作，不是竞争。RAG负责缩小搜索空间，长上下文负责深度理解。

还有主动RAG：让模型在推理过程中主动发出检索请求。模型推理到某一步，发现自己需要某个具体的信息，主动调用检索工具，拿到结果，继续推理。可以多轮检索，每轮检索的query由模型根据当前推理状态动态生成。这更接近人处理复杂问题的方式：遇到不确定的地方，去查，查完继续想，发现还有不确定的地方，再查。

有观点认为，RAG本质上是在检索粒度（LLM的输入）做召回，而所谓的无限上下文LLM也会有信息损失，本质上也是一种RAG方法，只是在QKV矩阵的粒度（LLM的中间向量）去做了召回。

也有网友提到，RAG应该被视作一种LLM可以使用的外部工具。让人查询文档中的相关内容，人也会根据结构化的标题以及ctrl+f功能进行快速的检索和定位，而不是从头到尾通读整篇文档。

大海捞针实验揭示了一个事实：随着上下文长度的增加，查全率在不断降低。靠近上下文尾巴的内容更不容易被遗漏，越靠前的内容越容易被遗漏。这种Recency Bias可能是由于下一个token预测这种训练范式导致的。

这引出了一个更底层的问题：我们想让AI系统像人类大脑一样运作，还是像一个配备了完善检索系统的工作站？

一种哲学是：把知识内化。让模型在训练过程中吸收尽可能多的知识，把知识压缩进参数，推理时从参数里直接调用。长上下文是这个方向的延伸。

另一种哲学是：知识存在外部，按需检索。模型不需要记住所有事情，它需要知道去哪里找，怎么找，找到了怎么用。RAG是这个方向的实现。

人类其实两种都在用。真正聪明的人不是记忆力最强的人，而是知道什么时候该直接调用记忆，什么时候该去查资料的人。

那些急着说“RAG要死了”或者“长上下文不够用”的人，可能还没想清楚这个问题。

有时候一个问题问错了，你怎么解都解不到正确答案。不是因为解法不够好，是因为方向偏了。

00:08 · Mar 23, 2026 · Mon

黄仁勋把龙虾机器人比作Linux？GitHub星标狂欢背后的AI泡沫 | 帖子

NVIDIA CEO黄仁勋在演讲中将OpenClaw称为“人类历史上最重要的开源项目”，因其GitHub星标数超过Linux内核。这引发广泛质疑——有观点认为这不过是token消耗机器和精美包装的模型封装器，其受欢迎程度可能源于人工炒作和机器人刷量。

这个说法立刻在Reddit社区引起轩然大波。

有网友直接怼回去：“Linux从1991年到2014年都没有GitHub星标，它是怎么活下来的？”答案很简单：靠邮件列表。真正重要的基础设施不需要虚拟的点赞来证明价值。

更讽刺的是，OpenClaw本质上就是个模型封装器。有开发者指出，它只是把LLM插入环境中“祈祷最佳结果”，而不是通过强化学习真正训练agent。相比之下，AI agent的发展方向应该是在良好框架下训练它们自动完成知识工作。

有人尝试运行OpenClaw五分钟后关掉，再打开时已经坏了。试图修复的过程烧掉了37美元的API token，换来的是一片空白和零反馈。有网友调侃：“把这个数字乘以数百万用户，欢迎来到AI经济。”

核心问题在于OpenClaw的商业逻辑。有观点认为，AI公司之所以疯狂推广agent系统，是因为这能大幅提升API使用量——他们利润最高的产品。订阅用户如果最大化使用服务，公司反而亏钱。但通过agent持续调用API？那才是真正的印钞机。

更荒诞的是AI圈出现的新玩法：给agent配置“soul.md”文件来定义其“灵魂”和性格，多个agent组成“部门”，再用可视化“办公室”插件监控这些虚拟员工如何分配任务。有人花几千美元搭建这套系统，结果发现还不如用简单的自动化脚本。“我相信AI，但这不是正确方向。”

至于那30万GitHub星标？可能有相当一部分来自机器人本身。

黄仁勋在Ubuntu shell里演示OpenClaw执行过程时说：“它就是那么重要。它能做...呃...就是你看到的这些。”这可能是他最诚实的时刻了。

有网友一针见血：“这些CEO都是销售员，拼命炒作AI。真烦人。”当一家全球最强大科技公司的CEO开始用虚拟点赞数做PPT，你就知道泡沫有多大了。

Linux运行在几乎所有设备上——金属服务器、虚拟机、容器、嵌入式系统。OpenClaw的一半实例还得跑在Linux上。黄仁勋当然知道这点。那他为什么要这么说？

这感觉像个顶峰时刻。那种胡扯到极致的顶峰。

00:05 · Mar 23, 2026 · Mon

Claude Code + LaTeX：本地运行的学术写作工具 | 帖子 | #工具

开发者推出开源工具ClaudePrism，将Claude Code集成进桌面应用，实现学术文档的本地化AI辅助写作。核心优势在于数据不上传云端、内置Git版本控制和LaTeX编译环境，解决了现有方案在隐私保护和工作流完整性上的痛点。

学术写作的AI工具不少，但要么把未发表的研究数据传到云端，要么本地部署繁琐得让人放弃。开发者delibae自己就是研究者，之前用VSCode + Claude Code勉强够用，但始终觉得缺点什么：关掉编辑器版本历史就没了，想问PDF里某个公式的含义得先手动转成文字，排版格式要自己慢慢调。

OpenAI的Prism提供了云端方案，但问题也很明显——你的研究数据得放在他们服务器上。于是delibae造了个本地版：ClaudePrism。

这个工具把Claude Code作为子进程运行，文档始终在本机。对新手友好：上传作业PDF就能生成初稿，框选PDF任意区域直接问AI"这是什么意思"，模板覆盖论文、海报、幻灯片。对老手实用：离线编译LaTeX（不用额外装环境）、Git版本控制、内置Python环境（uv）处理数据分析和绘图、支持Zotero文献管理。

有网友提到一个关键问题：Claude Code本身就会把数据发给Anthropic服务器做推理，"文档不离开本机"这个说法有误导性。这确实是个盲区——本地工具链再完善，只要调用API，数据隐私的底线还是掌握在模型提供商手里。学术机构对未发表研究的上传限制，在这里依然适用。

另一个值得注意的细节是项目名。多位开发者建议改名，因为Anthropic对"Claude"商标保护极其严格。技术再好，法务函一来就得推倒重来。

工具本身的思路清晰：把分散的学术写作需求整合进单一界面，减少工具切换的摩擦成本。版本历史用Git而非自建系统，参考文献接Zotero而非造轮子——这些设计选择都挺理性。

有人问它是否适合人文研究。项目导入了claude-scientific-skills这个技能库，里面100多个领域主要集中在量化健康科学。实证主义范式之外的研究方法，它大概率帮不上忙。

完全开源、跨平台支持、开发者声明不商业化。这种项目通常活不长，要么被收购，要么维护者精力耗尽。但眼下它确实在填补一个空白：那些既想用AI又不想把数据交出去的研究者，暂时有了个折中方案。

虽然"数据不离开本机"这个承诺打了折扣。

工具