Anthropic要求开源项目OpenCode移除所有Claude相关功能,包括API集成。背后原因是Claude Code订阅采用“折扣Token”模式,官方不希望用户在第三方工具中使用。这一强硬做法引发用户强烈不满,许多人开始转向ChatGPT。
Anthropic有两款产品:按使用量计费的Claude API,和包月订阅的Claude Code。订阅价格看起来便宜得多,实际上是Anthropic有意补贴,目的是把用户锁定在自家工具里。
OpenCode和OpenClaw这类第三方工具,一直允许用户用订阅账号调用Claude模型。用户觉得这很合理——我付了钱,为什么不能选自己喜欢的工具?但Anthropic明确表示:订阅只能用于官方客户端,想用第三方工具就得按API价格付费。
有观点认为,这种做法类似于Gmail早期提供1GB存储空间,结果有人开发了GmailFS把邮箱当网盘用,Google最后修改了服务条款。看起来是在保护商业模式。
但用户的愤怒不难理解。OpenCode的体验比Claude Code更好,功能更丰富,Token消耗却不会更多——订阅本身就有使用上限。Anthropic的限制并非出于成本考虑,而是担心用户发现:离开Claude Code后,换用其他模型轻而易举。
更耐人寻味的是时机。有人注意到,Claude Code最近一个月表现明显变差,怀疑是在后台偷偷把更多任务分配给便宜的Haiku和Sonnet模型,以应对DoW事件后暴增的使用量。也就是说,Anthropic可能正在牺牲高价订阅用户的体验,用来补贴低价用户增长。
一位用户的遭遇很有代表性:因为用OpenCode被封号,换了邮箱重新订阅,只用官方工具,结果还是被封。他说,从没见过一家科技公司对用户这么敌视,包括90年代的微软。
不少人已经转向Codex配合$200/月的OpenAI订阅。Claude的模型优势正在缩小,而工具生态的封闭正在加速这个过程。Anthropic团队给人的感觉是,他们觉得自己在造神,普通用户的需求无足轻重。
当整个行业都在追逐Agent能力时,有人想要的只是一个「博学」的模型——不需要写代码、不需要调用工具,就像离线版的全知百科。但这个需求在2025年似乎已经过时了。
三年前接触LLM,是为了摆脱搜索引擎那糟糕的信噪比,获取贴合场景的定制化知识。现在所有实验室都在堆Agent能力,这让人困惑:有限的参数预算下,强化工具调用是否会削弱模型本身的知识储备?
有观点认为知识量与参数数直接相关。测试Qwen3.5时发现,35B的MoE在Q4量化下的幻觉比27B密集模型的Q5还多,即便27B降到IQ3、显存只占12GB,仍比20GB的35B更可靠。规模更大的MoE能否改善这一点?
前沿实验室似乎已经放弃了纯知识路线。合成数据(chain-of-thought、工具使用轨迹)让模型更擅长推理,但训练算力有限,知识广度成了牺牲品。Tulu 3是个例外,它基于更多自然语料而非合成推理数据训练。
但「知识」和「认知」的界限本就模糊。如果只想要信息源,小模型+搜索工具就够了。但要让AI真正教学、解释、适配目标,你需要的不是知识堆砌,而是认知能力——这恰恰就是Agent。
有人提出解决方案:用Qwen3.5-9B这样的小模型,配上搜索工具,在系统提示词里列出可信来源优先级。模型的任务不是记住所有事实,而是知道去哪找、如何用。这比让405B模型硬记维基百科高效得多。
实际上,即使是Claude Opus这样的顶级模型,最近在简单常识问题上也开始失误,稍加质疑就会反复翻转立场。GPT-4在2023年的领域深度记忆比某些更新的「更聪明」模型还好,因为它没被过度调优成输出格式工具。模型正在被训练成「外包者」而非「思考者」。
有网友提到,依赖模型内置知识风险极高——幻觉不可靠,就算有知识也容易出错。现在的大context和工具调用能力下,引用外部知识才是正道。
仅英文维基百科未压缩就有10TB。没有哪个「本地规模」模型能装得下所有事实。知识需要参数,也需要正确使用这些参数的能力。
最接近「全知百科」的配置:Qwen3.5 397B(密集模型)+ 维基百科/Wikidata的RAG,一个9B模型配好检索能打败裸奔的70B。或者试试GLM-5、Kimi-K2.5、DeepSeek V3.1这些新的超大模型。
核心矛盾在于:谁来定义「真相」?LLM从来不是魔法真理机器,它需要海量已知真相来训练。真相是相对的,判断是用户的工作,不是模型的。
模型会过时,这就是为什么实验室都转向推理能力+搜索工具,而非单纯喂数据。知识不是终点,上下文和推理才是实际使用中更重要的东西。
OpenAI宣称现在已经出现“1000倍效率”的工程师,但一线开发者的反馈却截然不同。AI工具确实有帮助,但远非那种“一个顶一千个”的革命性飞跃,而且持续指导AI、检查修正其输出反而让工作更累了。
有观点认为,这种说法把工程工作变成了一场对抗虚构完美标准的竞赛,最糟的是让人永远觉得自己落后了。
真正在用AI写代码的人怎么说?一位开发者提到:“AI根本无法独立完成工作。我必须全程在场指导它、引导它、检查它的成果、纠正错误……这些模型输出token的流从不停歇,和AI协作实际上很累人,即使我几乎不再亲手写代码了。”
更值得警惕的是长期风险。AI生成的代码在短期内看起来运行良好,但时间一长可能会出现无法修复的bug,到那时只能推倒重来。问题是后果往往来得很晚,但伤害已经造成。
当然,也有开发者表示最近几个月没遇到“无法修复需要重启”的问题,但前提是有成熟的开发流程:系统化的规划、详细的技术规格、测试、上下文管理和代码审查,在AI写任何一行代码之前就做好准备。这更接近“智能体工程”而非单纯的AI代码生成。
有传言称一些顶尖工程师在AI credits上的花费已经接近年薪,大型科技公司可以轻松追踪工程师的算力消耗和产出,甚至可能搞出反乌托邦式的绩效排行榜。如果拿一个完全不用AI的工程师做对比,所谓的“1000倍工程师”可能只是lines of code游戏。
一位开发者的评论很现实:“就算有了成千上万美元的tokens和数百小时专家级prompt调教,Claude也做不了我为了通过高年级开发课必须做的事。”
这些夸张数字更像是营销团队为了吸引投资者而堆砌的修辞。真要出现几个100倍工程师,产品团队跟不上,QA跟不上,销售、运营、客服都会掉队,业务流程会直接崩溃。
一个名为prompt-master的开源Claude技能在一周内获得600+星标。它能根据你使用的AI工具(Cursor、Midjourney、Claude Code等)自动生成最优提示词,避免重复调整和浪费Credits。工具已支持35种常见错误模式修正和12种任务模板。
提示词优化工具并不新鲜,但这个项目的核心竞争力在于“工具特定路由”。
同样是生成吉卜力风格的东京夜景俯视图,给Midjourney的提示词是45个token的逗号分隔描述符,先锁定相机角度防止模型默认街景构图,再叠加视觉线索。给DALL-E 3的提示词则变成80个token的散文句式,末尾专门加上“不要在图像中包含任何文字或字母”来抑制它爱出现的随机文本伪影。
这种差异不是表面功夫。Cursor和Claude Code的上下文管理逻辑完全不同,用同一套提示词会直接崩。ComfyUI用户在用Stable Diffusion 1.5、SDXL还是Flux,输出结构都不一样,需要分别生成正向和负向提示块。甚至向o1模型添加思维链反而会降低效果,这是35种“烧Credits模式”中的一种。
有观点认为直接跟Claude Code像跟人聊天一样就行,出错了再说要改什么。开发者的回应很务实:这能省Credits,也能让模型理解更清晰。但更重要的是使用场景远不止对话,图像、视频、研究、演示、配音,每个领域的最佳实践完全不同。
项目在7天内从600星涨到900星,期间社区持续提出支持新工具的请求:Figma Make、Kimi 2.5、Ollama、Google Stitch。开发者几乎全天候在评论区确认兼容性,甚至当天就为特定用户添加了SeeDream和LTX 2.3的路由。v1.4刚发布,v1.5已经在规划agent支持。
整个项目像是在验证一个简单但容易被忽视的事实:AI工具之间的差异比我们想象的大得多,通用方案在具体场景下往往意味着妥协。