LightRAG支持多种存储方案(PostgreSQL、Neo4j、Milvus、OpenSearch等),支持文本、图片、表格、公式等多种数据类型的端到端知识抽取和问答。还提供了丰富的示例代码、Web UI,以及支持OpenAI、Hugging Face、Ollama、Azure OpenAI等多家模型接口。
项目亮点:
- 灵活配置的多存储架构,适合大规模知识管理;
- 深度集成知识图谱构建与编辑,支持实体关系管理、知识图谱可视化;
- 支持强大的Reranker提升检索效果;
- 新增RAG-Anything,打通多模态文档处理与检索能力;
- 丰富文档导入格式、引用功能、缓存管理、Token使用统计;
- 还支持Langfuse可观测性监控以及RAGAS自动评价指标。
无论是科研研究、企业知识库、还是多模态智能问答应用,LightRAG都提供了极具扩展性且高性能的解决方案。
Jensen Huang站在镜头前,用他标志性的皮夹克和自信语调宣告:“生物学的ChatGPT时刻就在眼前,可能是2-3年,也许5年。”
Reddit上炸开了锅。“又是一个卖铲子的在吹牛。”有人这样评论。这位评论者说出了很多人的心声——Jensen毕竟不是生物学家,他的公司靠卖GPU赚钱。更讽刺的是,OP在标题里把Jensen说的“near”(临近)改成了“here”(已经到来),这种细微的篡改恰恰暴露了当下AI领域的集体焦虑。
一位分子生物学家直言不讳:“AlphaFold确实令人印象深刻,但这些CEO的过度炒作已经到了可笑的程度。”另一位资深肺科医生承认AI确实能像他一样快速发现肺炎,但语气里透着一种复杂的情绪——既不是恐惧,也不是兴奋,更像是目睹同事被悄悄替换时的无力感。
有网友提到了那个澳大利亚企业家的故事。他用ChatGPT和AlphaFold,在研究人员帮助下,为患癌的狗定制了mRNA疫苗。几周后肿瘤明显缩小。这个案例被反复引用,却也恰恰说明了问题:这不是AI的独角戏,而是“AI+人类专家”的协作。去掉任何一方,故事都不成立。
真正值得关注的数据埋在评论深处。Nature发表的DeepRare系统,通过多智能体架构处理罕见病诊断,准确率64.4%,击败了五位拥有10年以上经验的医生(54.6%)。72%的美国医生已在工作中使用AI,2026年平均每位医生使用2.3个AI工具,而2023年这个数字还是1.1。微软的GigaTIME模型分析了14256名癌症患者,发现了1234个统计学显著关联。
这些进展是实实在在的。但距离Jensen描述的“理解生物学的基本构建块”还有多远?一位生物学教授的评论击中要害:“我们几十年前就理解了这些构建块。有些过程我们了如指掌,有些依然一无所知。AI能加速现有流程,这不是新闻。”
有观点认为,反对AI的声音主要来自西方,亚洲对AI更乐观。但数据显示,52%的美国人对AI的担忧多于兴奋。这种情绪并非无缘无故。当Jensen承诺AI将“让生活更美好”时,普通人看到的是:电费上涨、工作岗位消失、而那些万亿美元投资并未转化为他们能感知的生活改善。
2008年金融危机的阴影仍未散去。有评论者警告:“公司会为了短期利益毁掉整个经济,2008已经证明了这点。”如果AI足够快地取代大量工作,而新行业无法及时吸纳劳动力,结果可能是工资竞相压价,服务业崩溃,形成负反馈循环。
Jensen的问题不在于他说错了什么,而在于他说得太模糊。“理解生物学”是什么意思?AlphaFold能预测蛋白质结构,但蛋白质动力学是另一回事。一个分子生物学家的比喻很形象:“知道零件的形状,不等于知道机器如何运转。”
ChatGPT是全球第五大访问量网站,这是事实。但“ChatGPT时刻”究竟指什么?是技术突破、商业成功,还是公众认知的转变?对生物学来说,这三者可能发生在完全不同的时间点。实验室里的突破需要年复一年的临床验证才能变成可用的疗法,这个过程无法像软件迭代那样压缩。
一位研究者的观点值得深思:“LLM在发现阶段会非常有用。但从AI生成的假设到可上市的药物,仍需要多年的实验室和临床分析。研究人员获得收益和新疗法大规模出现之间会有时间差。”
最耐人寻味的是那些被算法推到评论区底部的声音。有人提到Michael Levin,一位在生物电反馈领域工作的科学家,他的团队用AI设计了一种叫Xenobot的生命体,完全没有编辑基因。这种不那么性感、更踏实的进展,反而可能更接近真正的革命。
Jensen可能是对的。生物学确实在经历深刻变革。但革命往往发生在无人注意的角落,而不是镁光灯下。当所有人盯着“ChatGPT时刻”何时到来时,真正的改变可能已经在某个实验室的培养皿里悄然发生了。
一位开发者测试了Qwen 3.5 397B模型后认为,它是目前最好的本地编程模型。虽然生成速度较慢(11-15 tokens/秒),但代码质量极高,几乎不需要多轮修复。更令人惊讶的是,使用IQ2_XS量化版本仅需123GB内存就能运行,在极低精度下仍保持了出色的性能。
这个结论来自Reddit LocalLLaMA板块的一次讨论。发帖者称他测试了几乎所有主流的本地大模型——从Qwen系列的122B/35B/27B,到GPT-OSS 120B、StepFun 3.5、MiniMax M2.5,再到Super Nemotron 120B,没有一个在知识储备和代码准确性上能接近397B。
速度慢是个问题。在96GB DDR5内存+48GB显存的配置下,它的生成速度从空白上下文的15 tokens/秒降到10万tokens时的11 tokens/秒。有网友调侃说这是"每个工作日一个token",也有人质疑这种速度是否实用。
但发帖者的逻辑很直接:虽然单次生成慢,但因为代码质量高,不需要反复修改,总体效率反而更高。而且和它的小版本或StepFun 3.5不同,397B的思考过程其实很简洁。
量化技术在这里起了关键作用。AesSedai制作的IQ2_XS量化版本把模型压缩到123GB,相比之下,其他模型即使是更小的参数量也要用IQ4_XS(StepFun 3.5、MiniMax M2.5)或Q6_K(Qwen 3.5 122b/35b/27b)。
这引发了一个有意思的讨论:2bit量化的397B是否比4-6bit量化的122B更好?有网友分享了评测数据——IQ2_XS在MMLU上达到87.86%,GPQA diamond达到82.32%,这个表现远超预期。
有观点认为,对于MoE架构的超大模型,"小模型高精度 vs 大模型低精度"的权衡逻辑已经不适用了。397B的参数空间太大,量化噪声分散后影响有限,路由机制和专家系统仍然有效运作。
硬件门槛确实存在。最经济的方案是两台Strix Halo(约5000美元)或256GB的Mac Studio M3 Ultra(约7000美元)。也有人用192GB DDR5 + 36GB VRAM的配置跑IQ4,速度在6-8 tokens/秒。
评论区出现了两派观点。一派认为在Claude订阅只需每月几十美元的情况下,花7000美元买硬件跑一个"差不多但不完全一样好"的模型不划算。另一派则强调本地部署的价值:完全的控制权、隐私保护、不受服务商限制,以及应对未来可能的政策变化。
有网友提到,如果把这些硬件当作开发机来看,额外成本就没那么夸张了。Strix Halo或Mac Studio本身也是性能不错的工作站,只是顺便能跑大模型而已。
在实际应用中,有人发现MiniMax M2.5在一次性生成代码方面更强,但Qwen 3.5 397B在需要迭代调试的编程框架中表现更智能。也有人提到GLM-5在软件工程任务上仍然是最强的,尽管速度更慢。
一个值得注意的细节:网友测试了TQ1_0量化版本(极端压缩),在3090 + P40 + 48GB DDR5的配置下仍能达到9-10 tokens/秒。虽然TQ1_0通常被认为压缩过度,但实际结果出人意料地好。
还有人用Mac Studio 128GB通过MLX框架运行Q4量化版本,实现了9 tokens/秒的速度。甚至有开发者声称可以在只有6-9GB内存的MacBook Pro上通过SSD卸载的方式运行,虽然速度会慢很多。
关于速度,有网友做了个对比:DeepSeek 3.2在各大API服务商的平均速度在10-25 tokens/秒之间,11-15 tokens/秒其实在可用范围内。关键是任务类型——对于简单的代码补全,速度很重要;但对于复杂的架构设计和多文件重构,质量比速度更关键。
有个反直觉的观点:可能让27B模型做两遍任务,比跑一遍397B更高效。基准测试显示,27B在第二次尝试时就能接近397B的表现。
最后还有一些技术细节。用USB4连接两台机器做分布式推理,实际带宽能达到10Gbps,虽然比理论值低但足够用。通过llama.cpp的rpc-server可以实现负载分割,速度损失约10%。
这场讨论最有意思的地方不是某个模型有多强,而是整个社区在探索"本地AI"的边界时展现出的创造力。从极端量化到分布式推理,从硬件改造到软件优化,每个人都在用自己的方式突破限制。
Anthropic团队在Claude Code中实际使用了数百个技能,总结出9大类型和若干制作原则。技能的本质是可包含脚本、数据的文件夹系统,而非简单的文本说明。最有效的技能往往专注于“反常识”信息,通过渐进式披露避免过度引导。
技能系统已经成为Claude Code最常用的扩展机制。但灵活性也带来困惑:什么样的技能值得做?好技能的秘诀是什么?
Anthropic内部运行着数百个活跃技能。这些经验可能有参考价值。
一个常见误解是把技能当“markdown文件”。实际上,技能是包含脚本、素材、数据的文件夹——Agent可以发现、探索、操作这些内容。最有意思的技能都在创造性地使用配置选项和目录结构。
九种类型
技能大致分九类。好的技能清晰归属其一,混乱的往往跨越多个类别:
1. 库与API参考
解释如何正确使用内部库、CLI或SDK。包含代码片段库和常见陷阱清单。比如:billing-lib(内部计费库的边界情况和易错点)、frontend-design(让Claude更好地遵循设计系统)。
2. 产品验证
描述如何测试代码是否工作。常与Playwright、tmux等外部工具配合。有价值的做法包括:让Claude录制测试视频,在每步强制状态断言。值得工程师花一周时间打磨验证技能。
3. 数据获取与分析
连接数据和监控栈。包含获取数据的库、凭证、仪表板ID,以及常见查询工作流。例如funnel-query定义了“从注册到激活到付费”需要join哪些事件表。
4. 业务流程与团队自动化
将重复工作流自动化为一条命令。通常较简单,但可能依赖其他技能或MCP。保存之前结果到日志文件,帮助模型保持一致性。如standup-post聚合ticket、GitHub活动和Slack历史,生成格式化的站会更新。
5. 代码脚手架与模板
为特定功能生成框架样板。当脚手架有自然语言需求、无法纯靠代码覆盖时特别有用。
6. 代码质量与审查
强制执行代码质量。可以包含确定性脚本以提高鲁棒性,可能作为hook或GitHub Action自动运行。adversarial-review会生成一个“全新视角”的子Agent来批评代码,实现修复,迭代直到问题降级为吹毛求疵。
7. CI/CD与部署
帮你获取、推送、部署代码。babysit-pr监控PR、重试不稳定的CI、解决合并冲突、启用自动合并。
8. Runbook
接收一个症状(Slack线程、告警、错误签名),执行多工具调查,产出结构化报告。
9. 基础设施运维
执行日常维护和操作流程——有些涉及破坏性操作,需要护栏。比如<resource
制作要点
+ 别说废话
Claude Code已经了解你的代码库,Claude本身也懂编程。如果你的技能主要是知识传递,专注于那些能推Claude脱离默认思维的信息。frontend-design技能就是好例子——它通过与用户迭代,避免Claude总用Inter字体和紫色渐变。
+ 建立Gotchas章节
技能中信号最强的内容。这些章节应该从Claude使用技能时的常见失败点累积而来。你需要持续更新技能来捕获这些坑。
+ 利用文件系统与渐进式披露
技能是文件夹。把整个文件系统当作上下文工程和渐进式披露。告诉Claude技能里有什么文件,它会在合适时机读取。最简单的形式是指向其他markdown文件,比如把详细的函数签名和用例拆到references/api.md。你可以有references、scripts、examples等文件夹。
+ 避免过度引导
Claude会尽量遵循指令。因为技能高度可复用,小心别太具体。给Claude需要的信息,但保留适应情境的灵活性。
+ 考虑设置流程
有些技能需要用户提供上下文。比如发送站会到Slack的技能,可能要问发到哪个频道。好做法是在技能目录下存config.json。如果配置未设置,Agent就问用户。
+ 描述字段是给模型看的
Claude Code启动会话时,会构建所有可用技能的清单及其描述。这个清单是Claude扫描的依据——“有没有适合这个请求的技能?”所以描述字段不是摘要,是触发条件。
+ 记忆与数据存储
有些技能通过在内部存储数据来实现记忆。可以简单到追加日志文件、JSON文件,复杂到SQLite数据库。比如standup-post技能可能保存standups.log,记录每次发的内容,下次运行时Claude读自己的历史,知道昨天以来发生了什么。
技能目录中的数据可能在升级时被删除,应存到稳定文件夹,目前提供${CLAUDE_PLUGIN_DATA}作为每个插件的稳定存储。
+ 存储脚本与生成代码
给Claude代码是最强大的工具之一。给Claude脚本和库,让它把精力花在组合上、决定下一步做什么,而不是重构样板。比如数据科学技能可能有从事件源获取数据的函数库。为了让Claude做复杂分析,给它一组辅助函数。Claude随后即时生成脚本组合这些功能,回答“周二发生了什么?”这类问题。
+ 按需Hook
技能可以包含只在调用时激活、持续整个会话的hook。用于你不想一直运行、但有时极有用的强意见hook。例如/careful通过PreToolUse匹配器阻止rm -rf、DROP TABLE、force-push、kubectl delete。你只在知道要碰生产环境时才需要它——一直开着会逼疯人。
分发技能
共享技能有两种方式:
- 把技能签入repo(./.claude/skills下)
- 做一个plugin,建立Claude Code Plugin市场,用户可以上传和安装
小团队在少数repo间工作,签入repo效果不错。但每个签入的技能都会给模型增加上下文。规模扩大后,内部插件市场允许你分发技能,让团队决定安装哪些。
+ 管理市场
我们没有中心化团队决定;而是有机地发现最有用的技能。如果有技能想让人试用,可以上传到GitHub沙盒文件夹,在Slack等地方给链接。
一旦技能获得关注(由技能所有者决定),他们可以提PR移到市场。
警告:创建糟糕或冗余的技能太容易了,发布前确保有某种策展方法。
+ 组合技能
你可能想让技能互相依赖。比如文件上传技能,CSV生成技能制作CSV后上传。这种依赖管理还没原生内置到市场或技能中,但可以按名称引用其他技能,模型会在安装时调用它们。
+ 测量技能
为了了解技能表现,我们用PreToolUse hook记录公司内部技能使用情况。这样能找到受欢迎的技能,或相对预期触发不足的技能。
技能是强大而灵活的工具,但仍处于早期,大家都在摸索最佳用法。
把这些当作有用提示的集合,不是权威指南。理解技能的最佳方式是开始、实验、看什么有效。我们的大多数技能都始于几行字和一个坑,因为人们在Claude遇到新边界情况时不断添加而变好。
Claude 4.6写代码会埋下严重bug,自己却审查不出来。必须用Codex 5.4反复审核每次提交4遍以上。“通过测试”不代表没问题——AI太擅长写能通过的测试了。
有观点认为用传统工具——linting、类型检查、测试门槛——就够了。Sterling直接反驳:AI最爱干的就是写能通过测试的测试。这是个盲区。你可以让Claude在全新上下文中反复检查自己的代码,直到它说“没问题了”,然后Codex仍能揪出bug。
“通过测试就没bug”是个疯狂假设。
代码可能运行完美,测试全绿,但藏着一个细微的深层误解,毁掉整个系统的意义,导致灾难性故障。这种错误,传统validator抓不到,单元测试也无能为力,因为模型已经被过度优化成“写通过测试的代码”。
为什么不直接让Codex写代码?Sterling说Codex像个教导主任,过度优化“正确代码”,却错失系统真正目的(telos)。太官僚了。Claude更适合日常驾驶,但需要Codex这个苛刻的审计员盯着。
有开发者开始探索plan-with-codex模式:让Claude做计划,Codex审核,两者循环直到Codex批准——在写代码前就把错误拦住。另有人用多模型代码审查:Opus负责架构逻辑,Codex抓安全漏洞,Kimi K2.5查性能问题,Sonnet 4.6管代码风格。
一个被反复引用的回复:你得让它完全重写代码,从根本上消除那类bug的可能性。否则就是无限循环,让agents猜这个bug是不是“真的”、“重要的”。
Cursor Composer被曝基于Kimi K2.5,引发授权争议。最终确认Cursor通过Fireworks获得合法授权,但转售商机制让原开发者蒙在鼓里。这场乌龙暴露了AI供应链的不透明性。
事情比想象中平淡。Moonshot通过Fireworks提供白标服务,Cursor走的是这条线。协议可能允许隐去基础模型名称,所以Moonshot一开始根本不知道Cursor在用他们的东西。
有观点认为,Moonshot员工最初在社交媒体上的反应可能违反了保密条款,事后才被管理层叫停。也有人怀疑这是事后补救——Cursor被抓包后火速谈妥协议。但Kimi用的是修改版MIT协议,本就允许商用,只是要求披露模型名称。Fireworks作为中间商,或许本就有权剥离这个条款。
中国开源模型处境微妙。Qwen团队遭裁,M2.7转闭源,DeepSeek V4悄然延期。有网友提到,下一代中国模型可能全面闭源。
Cursor声称自己完成了75%的训练,基础模型只占25%算力。这个说法有些站不住脚——如果真有这能力,为什么还要借别人的基础模型?算力从来不是全部,不然谁都能从头训练了。
转售机制本身没问题,但它确实制造了信息不对称。用户以为在用Cursor的独家模型,实际上运行的是Kimi。开发团队可以撇清关系,原模型方毫不知情,平台商稳赚中介费。这套系统精巧得让人不安。
CLAUDE.md文件超过100行后,AI会选择性忽略指令。解决方法不是添加更多规则,而是将执行逻辑从指令转移到基础设施——用自动化钩子(hooks)强制质量检查,用技能文件(skills)按需加载上下文,用campaign文件持久化会话状态。
有人做了个审计,发现自己的CLAUDE.md有40%的冗余内容。规则在不同措辞下重复,甚至自相矛盾。文件从45行膨胀到190行,AI的服从度反而下降了。
问题的根源在于:CLAUDE.md是入口点,不是永久仓库。它应该只包含项目概览、技术栈和最关键的5件事。其他所有东西都该放在AI需要时才加载的地方。
真正改变游戏规则的转变是:把执行逻辑从指令转移到环境中。
比如“编辑文件后总是运行类型检查”这条规则,AI有时遵守,有时忘记。解决方案是用生命周期钩子——每次保存文件自动运行脚本。AI不需要选择是否检查,环境强制执行。错误在引入的那次编辑中就会暴露,而不是20次编辑后才发现。
规则会降级,钩子不会。
这套思路可以推广到所有场景:跨会话的重复指令变成技能文件,编码特定领域的模式和约束;会话上下文丢失用campaign文件解决,记录已完成的工作、做过的决策和剩余任务;质量验证变成自动化钩子,每次编辑时类型检查,会话结束时扫描反模式,连续3次失败后触发熔断器。
有观点认为,CLAUDE.md的变更本质上是软件变更,不是提示词调整。当它影响整个团队时,需要像对待代码一样严格:建立基线、测量效果、逐步推出、支持回滚。
另一个发现是:超过100行的指令开始被当作建议而非规则。有人将文件从150行精简后,合规性立即提升。
进化路径大致是:原始提示词(无持久化)→ CLAUDE.md(规则有帮助但有上限)→ 技能文件(模块化专业知识,按需加载)→ 钩子(环境执行质量)→ 编排(并行agent、持久化campaign)。
一位开发者分享了自己的系统:顶层CLAUDE.md是路由器,将任务类型映射到子目录;每个子目录有自己的作用域CLAUDE.md;可重复的多步骤工作流打包为技能文件;定期任务审计文件行数、冗余和过时内容。
有网友提到了渐进式工具披露的技巧:不为每个功能都构建MCP服务器,而是写HTTP端点,用shell脚本包装,格式化输出给AI。这样可以逐步暴露工具,几分钟就能添加新功能。
成本控制也遵循同样的原理。每次AI超支时添加规则(“不要在这个任务上用Opus”)没用,30条模型选择规则AI照样忽略。真正有效的是代理层,自动根据复杂度路由,带预算强制执行。有人的AI在8分钟内烧掉15美元,添加规则没用,把决策从提示词移到基础设施才解决问题。
一个值得注意的细节:Anthropic官方插件市场有claude-md-management工具,可以审计CLAUDE.md质量,捕获会话学习,已有76000+安装量。
整个讨论的共识是:臃肿的CLAUDE.md是普遍的成人礼。解决方案不是更多规则,而是构建基础设施。
作者开源了完整系统Citadel
一位开发者在构建每日研究工作流时,偶然发现了Anthropic文档中的“减少幻觉”页面。三条简单的系统提示指令,彻底改变了Claude的输出质量。
第一条:“允许Claude说我不知道(Allow Claude to say I don't know)”。没有这个指令,Claude会用听起来合理的虚构内容填补知识空白。有了它,你会真正得到“我没有足够信息回答这个问题”的回复。听起来简单,但默认行为是无论如何都要给出答案。
第二条:“用引用验证(Verify with citations)”。告诉Claude每个断言都需要来源,找不到就收回。开启这个后,许多之前听起来很权威的陈述直接从输出中消失了,因为根本没有依据。
第三条:“用直接引用进行事实验证(Use direct quotes for factual grounding)”。强制Claude在分析前先从文档中提取逐字引用。这能阻止“释义漂移”,模型在总结时会微妙地改变含义。
单独使用每一条都有帮助,三条一起用会根本性地改变输出质量。
但有个权衡。一篇论文(arXiv 2307.02185)发现,引用约束会降低创造性输出。所以这位开发者做了个切换开关:研究模式激活全部三条,默认模式让Claude自由思考。
奇怪的是,这些都公开发布在Anthropic的平台文档上。并不隐蔽。但问了一圈用Claude开发的人,没人见过它。
有用户将这些指令应用到客服机器人后,效果立竿见影。之前Claude会自信地回答FAQ之外的问题,编造看似合理的答案。现在遇到没有的信息,它会说“我没有这方面信息,让我为您联系店主”,而不是瞎编。
社区讨论的焦点是:为什么这些不是默认设置?
答案很现实。对于编程、头脑风暴、写小说这类任务,你希望Claude做出跳跃性的联想和连接。强制这些约束会让创造性工作变得糟糕。对某些用户最好的设置,对其他人可能是灾难。
有人建议让Claude给出“置信度百分比”,但这个想法被社区强烈否定。任何Claude给出的置信度分数本身就是一种幻觉,它衡量的是统计上的词语选择,不是事实准确性。
更高级的做法是在自定义指令中创建可切换的“研究模式”,用斜杠命令(如/research)为某个会话激活这些规则。
一位用户分享了他的系统提示:将Claude定位为研究协作者而非权威,标记置信度水平,为每个概念提供至少两个类比,并明确说明每个类比的局限性。对每个理论,识别它失败的具体条件。
这不是万能药。这只是众多可能的防护栏中的几个,不要以为它能完全消除幻觉。但如果你需要事实准确性而不是创意输出,这三条指令值得一试。
Anthropic要求开源项目OpenCode移除所有Claude相关功能,包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式,官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满,许多人开始转向ChatGPT。
Anthropic有两款产品:按使用量计费的Claude API,和包月订阅的Claude Code。订阅价格看起来便宜得多,实际上是Anthropic有意补贴,目的是把用户锁定在自家工具里。
OpenCode和OpenClaw这类第三方工具,一直允许用户用订阅账号调用Claude模型。用户觉得这很合理——我付了钱,为什么不能选自己喜欢的工具?但Anthropic明确表示:订阅只能用于官方客户端,想用第三方工具就得按API价格付费。
有观点认为,这种做法类似于Gmail早期提供1GB存储空间,结果有人开发了GmailFS把邮箱当网盘用,Google最后修改了服务条款。看起来是在保护商业模式。
但用户的愤怒不难理解。OpenCode的体验比Claude Code更好,功能更丰富,Token消耗却不会更多——订阅本身就有使用上限。Anthropic的限制并非出于成本考虑,而是担心用户发现:离开Claude Code后,换用其他模型轻而易举。
更耐人寻味的是时机。有人注意到,Claude Code最近一个月表现明显变差,怀疑是在后台偷偷把更多任务分配给便宜的Haiku和Sonnet模型,以应对DoW事件后暴增的使用量。也就是说,Anthropic可能正在牺牲高价订阅用户的体验,用来补贴低价用户增长。
一位用户的遭遇很有代表性:因为用OpenCode被封号,换了邮箱重新订阅,只用官方工具,结果还是被封。他说,从没见过一家科技公司对用户这么敌视,包括90年代的微软。
不少人已经转向Codex配合$200/月的OpenAI订阅。Claude的模型优势正在缩小,而工具生态的封闭正在加速这个过程。Anthropic团队给人的感觉是,他们觉得自己在造神,普通用户的需求无足轻重。
当整个行业都在追逐Agent能力时,有人想要的只是一个「博学」的模型——不需要写代码、不需要调用工具,就像离线版的全知百科。但这个需求在2025年似乎已经过时了。
三年前接触LLM,是为了摆脱搜索引擎那糟糕的信噪比,获取贴合场景的定制化知识。现在所有实验室都在堆Agent能力,这让人困惑:有限的参数预算下,强化工具调用是否会削弱模型本身的知识储备?
有观点认为知识量与参数数直接相关。测试Qwen3.5时发现,35B的MoE在Q4量化下的幻觉比27B密集模型的Q5还多,即便27B降到IQ3、显存只占12GB,仍比20GB的35B更可靠。规模更大的MoE能否改善这一点?
前沿实验室似乎已经放弃了纯知识路线。合成数据(chain-of-thought、工具使用轨迹)让模型更擅长推理,但训练算力有限,知识广度成了牺牲品。Tulu 3是个例外,它基于更多自然语料而非合成推理数据训练。
但「知识」和「认知」的界限本就模糊。如果只想要信息源,小模型+搜索工具就够了。但要让AI真正教学、解释、适配目标,你需要的不是知识堆砌,而是认知能力——这恰恰就是Agent。
有人提出解决方案:用Qwen3.5-9B这样的小模型,配上搜索工具,在系统提示词里列出可信来源优先级。模型的任务不是记住所有事实,而是知道去哪找、如何用。这比让405B模型硬记维基百科高效得多。
实际上,即使是Claude Opus这样的顶级模型,最近在简单常识问题上也开始失误,稍加质疑就会反复翻转立场。GPT-4在2023年的领域深度记忆比某些更新的「更聪明」模型还好,因为它没被过度调优成输出格式工具。模型正在被训练成「外包者」而非「思考者」。
有网友提到,依赖模型内置知识风险极高——幻觉不可靠,就算有知识也容易出错。现在的大context和工具调用能力下,引用外部知识才是正道。
仅英文维基百科未压缩就有10TB。没有哪个「本地规模」模型能装得下所有事实。知识需要参数,也需要正确使用这些参数的能力。
最接近「全知百科」的配置:Qwen3.5 397B(密集模型)+ 维基百科/Wikidata的RAG,一个9B模型配好检索能打败裸奔的70B。或者试试GLM-5、Kimi-K2.5、DeepSeek V3.1这些新的超大模型。
核心矛盾在于:谁来定义「真相」?LLM从来不是魔法真理机器,它需要海量已知真相来训练。真相是相对的,判断是用户的工作,不是模型的。
模型会过时,这就是为什么实验室都转向推理能力+搜索工具,而非单纯喂数据。知识不是终点,上下文和推理才是实际使用中更重要的东西。
OpenAI宣称现在已经出现“1000倍效率”的工程师,但一线开发者的反馈却截然不同。AI工具确实有帮助,但远非那种“一个顶一千个”的革命性飞跃,而且持续指导AI、检查修正其输出反而让工作更累了。
有观点认为,这种说法把工程工作变成了一场对抗虚构完美标准的竞赛,最糟的是让人永远觉得自己落后了。
真正在用AI写代码的人怎么说?一位开发者提到:“AI根本无法独立完成工作。我必须全程在场指导它、引导它、检查它的成果、纠正错误……这些模型输出token的流从不停歇,和AI协作实际上很累人,即使我几乎不再亲手写代码了。”
更值得警惕的是长期风险。AI生成的代码在短期内看起来运行良好,但时间一长可能会出现无法修复的bug,到那时只能推倒重来。问题是后果往往来得很晚,但伤害已经造成。
当然,也有开发者表示最近几个月没遇到“无法修复需要重启”的问题,但前提是有成熟的开发流程:系统化的规划、详细的技术规格、测试、上下文管理和代码审查,在AI写任何一行代码之前就做好准备。这更接近“智能体工程”而非单纯的AI代码生成。
有传言称一些顶尖工程师在AI credits上的花费已经接近年薪,大型科技公司可以轻松追踪工程师的算力消耗和产出,甚至可能搞出反乌托邦式的绩效排行榜。如果拿一个完全不用AI的工程师做对比,所谓的“1000倍工程师”可能只是lines of code游戏。
一位开发者的评论很现实:“就算有了成千上万美元的tokens和数百小时专家级prompt调教,Claude也做不了我为了通过高年级开发课必须做的事。”
这些夸张数字更像是营销团队为了吸引投资者而堆砌的修辞。真要出现几个100倍工程师,产品团队跟不上,QA跟不上,销售、运营、客服都会掉队,业务流程会直接崩溃。
一个名为prompt-master的开源Claude技能在一周内获得600+星标。它能根据你使用的AI工具(Cursor、Midjourney、Claude Code等)自动生成最优提示词,避免重复调整和浪费Credits。工具已支持35种常见错误模式修正和12种任务模板。
提示词优化工具并不新鲜,但这个项目的核心竞争力在于“工具特定路由”。
同样是生成吉卜力风格的东京夜景俯视图,给Midjourney的提示词是45个token的逗号分隔描述符,先锁定相机角度防止模型默认街景构图,再叠加视觉线索。给DALL-E 3的提示词则变成80个token的散文句式,末尾专门加上“不要在图像中包含任何文字或字母”来抑制它爱出现的随机文本伪影。
这种差异不是表面功夫。Cursor和Claude Code的上下文管理逻辑完全不同,用同一套提示词会直接崩。ComfyUI用户在用Stable Diffusion 1.5、SDXL还是Flux,输出结构都不一样,需要分别生成正向和负向提示块。甚至向o1模型添加思维链反而会降低效果,这是35种“烧Credits模式”中的一种。
有观点认为直接跟Claude Code像跟人聊天一样就行,出错了再说要改什么。开发者的回应很务实:这能省Credits,也能让模型理解更清晰。但更重要的是使用场景远不止对话,图像、视频、研究、演示、配音,每个领域的最佳实践完全不同。
项目在7天内从600星涨到900星,期间社区持续提出支持新工具的请求:Figma Make、Kimi 2.5、Ollama、Google Stitch。开发者几乎全天候在评论区确认兼容性,甚至当天就为特定用户添加了SeeDream和LTX 2.3的路由。v1.4刚发布,v1.5已经在规划agent支持。
整个项目像是在验证一个简单但容易被忽视的事实:AI工具之间的差异比我们想象的大得多,通用方案在具体场景下往往意味着妥协。