普通人给 AI 一个问题,等一个答案。Karpathy 给 AI 一套思维框架,然后让它在框架里工作。
有网友一语点破:这些提示词本身只是表象,真正的差距在于你如何定义问题。提示词是结果,思维方式才是原因。
以下是 7 种具体用法:
1. 系统拆解提示:遇到复杂问题,强制 Claude 按步骤走:明确问题、列出假设、识别约束、拆分子问题、提三种方案、比较权衡、给出执行路径、预判失败点。这套流程本质上是把你的思维过程外包出去,然后让 AI 替你跑一遍。
2. 第一性原理提示:不要类比,不要总结,从最底层概念开始,一层一层建起来,最后给出心智模型、真实应用和常见误解。适合搞懂 LLM、系统设计、数学原理这类容易“以为自己懂了”的东西。
3. 研究简报生成:让 Claude 给出某个领域的全景图,包括玩家格局、当前路径、失败案例、市场空白、逆向洞察和可落地机会。它会变成一个还不错的分析师。
4. 构建架构提示:从想法到实现,要求它给出最简版本、组件结构、数据流、技术栈、构建顺序、边界情况和扩展策略。省去大量乱猜阶段。
5. 提示词优化器:把你自己写的提示词扔进去,让它优化清晰度、结构、约束条件和输出格式,并解释改了什么、为什么更好。提示词质量会随时间复利增长。
6. 专家模式切换:让它以高级工程师对工程师的方式回答,跳过入门解释,直接聚焦实现、权衡和踩坑点。
7. 批判性思考伙伴:让它不要盲目附和,主动挑战你的假设、指出逻辑漏洞、提出替代方向。这一步大多数人从来不做。
有网友补充了一个实践细节:在开发应用的过程中,你得反复做审计,一旦发现模型开始循环并强行引入不必要的改动,那就是该叫停的时机。
这 7 个提示词值得存起来反复用。不过更值得记住的是:AI 给出的答案质量,上限就是你提出问题的质量。
大模型越做越大,但真正卡脖子的不是参数量,是内存。
每次推理时,模型都要维护一个叫 KV cache 的东西,相当于一张随时翻查的“答题小抄”。上下文越长,这张小抄越大,内存就越先撑不住。这是当前所有长文本任务的共同痛点。
Google Research 最新发布的 TurboQuant,直接针对这个卡点下手。
它的思路分两步走。第一步叫 PolarQuant,把向量从直角坐标转成极坐标,好比把“向东3步、向北4步”换成“沿37度角走5步”,这样就不需要每次重新校准边界,砍掉了传统方法必须携带的那部分冗余存储。第二步叫 QJL,只用1个 bit 来处理第一步压缩后残留的微小误差,把偏差消掉,同时做到零额外内存开销。
两步加起来,整个过程没有新引入的“存储税”。
测试结果很直接:TurboQuant 把 KV cache 压到3 bit,内存占用缩小6倍以上,在 H100 上计算注意力分数的速度提升最高8倍,而且在问答、代码生成、长文本摘要等标准 benchmark 上,精度几乎没有可见损耗。跟同类方法比,它甚至不需要针对特定数据集调参。
更重要的一点:这套算法在数学上是可以被证明的,运行接近理论下界,不是调出来的经验值。
除了 LLM,TurboQuant 对向量搜索也有直接影响。现代搜索引擎已经越来越依赖语义向量来理解用户意图,而不只是关键词匹配,这意味着数据库里要存数十亿个高维向量。压缩效率的每一点提升,都会直接反映在成本和响应速度上。
压缩做到极致之后,AI 的规模边界在哪里,还真不好说。
中国LLM圈已形成“大厂+六小虎+DeepSeek”的三层格局。字节跳动Doubao领跑国内市场,DeepSeek以量化交易副业身份创造了大量技术创新,六小虎靠开放权重+廉价推理维持存在感,但长期生存能力存疑。
字节跳动旗下的Doubao是中国市场当之无愧的第一,Seedance则成为最流行的视频生成应用。阿里的Qwen在开源小模型领域最强。Baidu、Tencent的专有模型用的人不多,但腾讯在3D网格生成和游戏向模型上悄悄布局。小米MiMo V2 Pro在OpenRouter七日用量中排名第一,1.77T tokens,力压Claude Sonnet。
DeepSeek是量化交易公司幻方科技的副业,却发明了MLA、GRPO等架构创新,GRPO据说源自其交易系统的强化学习背景。有网友提到,DeepSeek V3.2在没有任何新发布的情况下,用量依然超过Claude Sonnet和Opus——一个副业项目活得比很多主业更滋润。
六小虎(智谱、MiniMax、月之暗面、阶跃星辰、百川、01 AI)商业模式高度雷同:发大模型刷存在感,靠廉价推理抢用户。OpenRouter数据显示,StepFun 3.5 Flash和MiniMax M2.5分别占据第二、第三名,定价低廉是主要原因。有观点认为,开源不是道德选择,是部署优势,西方讨论总喜欢把这件事讲成价值观问题。
美团LongCat 562B的动态MoE设计值得关注:激活参数随请求复杂度浮动,推理成本不固定,这对生产部署有实际意义。
有网友观察:这一轮“小虎”竞争其实在快速培养大量AI工程师,即便大多数公司最终倒闭,剩下的人才池对整个行业是净收益。中国AI的轨迹和当年电动车行业惊人地相似。
给AI堆砌越来越多的规则,反而会让输出质量下降。Anthropic自己的工程团队也踩过这个坑。解法是让Claude审计并精简自己的设置。
每次Claude输出不好,你就加一条规则。“简洁一点。”“用口语化语气。”“解释专业术语。”三个月后,你攒了30条规则,其中有几条正在互相打架——“保持简洁”和“始终解释你的推理过程”根本无法同时满足。
Anthropic在发布Claude Code时,他们自己的工程团队发现:搭建的脚手架让AI变得更差了。
这不是玄学。有观点认为,这本质上是委托代理问题——规则越多,模型越忙于“满足规则合规性”,而不是完成你真正想要的任务。输出变得技术上正确,创造力全死。
把47步菜谱交给厨师,他反而做不好一道只需12步的菜。
解法很直接。在Claude Code里发一条消息,让它读取你的CLAUDE.md、所有skills文件和context文件,然后逐条审计每一条规则:这条我不说你默认也会做吗?这条和别处的指令矛盾吗?这条是不是只为了修一次坏输出才加进来的?
然后让它给出删除清单和一份清理后的CLAUDE.md。
有用户把400行的CLAUDE.md压缩到90行,输出明显改善。有人裁掉60%的规则,响应速度提升40%,幻觉减少。有网友提到,只要运行一次这个审计提示,就能发现自己从没意识到的矛盾——比如模糊的“保持自然”在覆盖具体的语调规则。
不要无脑删除所有被标记的内容。删完之后跑三个最常见的任务,输出一样好或更好,说明那些规则是死重。某个功能坏了,只加回那一条。
有观点认为,真正的技能不是写规则,是知道删什么。
你的AI设置应该随时间变得越来越简单。如果它在变复杂,就说明你在用积累规则的方式逃避思考“我到底想要什么”这个根本问题。
这个问题,Claude帮不了你。
OpenAI宣布关停旗下AI视频生成平台Sora,原因是每天亏损高达50万美元,部分估算甚至达1500万。这个曾被视为“颠覆好莱坞”的产品,最终死于三个字:用不起。
Sora没有死于竞争,死于算术。
一个10秒的AI视频,需要逐帧生成360张图像。免费向全体用户开放这个能力,本质上是在请全世界网民来家里开流水席,食材钱自己出。有数据显示,在最火的那几周,Sora每天烧钱可能高达1500万美元。后来用的人少了,成本才跟着降下来。
真正有趣的不是关停本身,是关停之前发生的事:OpenAI和迪士尼在去年12月高调宣布合作,把200多个漫威、星战角色引入Sora供粉丝创作,迪士尼还投了10亿。然后OpenAI转身宣布退出视频生成业务,迪士尼随即发了一份措辞礼貌的声明,说“尊重OpenAI的决定”。合同签了没几个月,人就跑路了。
有观点认为,Sora真正的问题不是成本,是过度审查。有网友说自己试了15次,只有2次成功,剩下的全被内容审核拦掉了。另一个很现实的问题是:没有使用门槛,人们就不会去想“这个视频值不值得生成”,计算资源就这样被无数只想看猫打架的人消耗殆尽。
Sora的Sora研究团队被保留了,方向转向机器人和“世界模拟研究”,这倒是说得通,视频生成技术对训练物理世界模型确实有用,只是没法直接变现。
目前被提到最多的替代产品是Seedance 2.0,据说效果远超Sora,只是在美国因版权问题暂时无法使用。
这让人想到一个没有答案的问题:AI视频的商业模式究竟是什么?谁愿意为一个十秒钟的视频付费多少钱,才能让这件事不亏损?
多数人用AI的方式,是在跟一个想取悦你的人聊天。它会点头,会夸你,会把你的问题包装成智慧。
改变这一切只需要一句话:
“Be honest, not agreeable.”
高赞回复里,有观点认为最有效的不是“聪明提问”,而是在提问之前先做一件事:让AI在回答前,先说出你隐含的假设、最常见的错误、以及会改变答案的缺失信息,然后问你一个关键问题,等你回答之后才给出结论。
这个结构的逻辑很简单:AI默认填补你的认知空白,而这个填补过程你是看不见的。把它拿出来,你才知道自己在问一个什么样的问题。
另一个被反复提到的方向是反拍马屁设定。有网友在自定义指令里写:停止表示赞同,作为我的高级顾问,不要验证我,不要软化真相,不要奉承,挑战我的思路,指出我在回避什么,告诉我机会成本。
有观点认为这类提示有个陷阱:命令AI“停止赞同”,它可能变成一个表演批评的模型,而非真正提供有价值的反馈。让它太对抗性,会产生疲惫感,而非突破感。
一些简短但实用的提示词,按效果排列:
-“Think step by step before answering.”多步推理准确率显著提升
-“Assume I am wrong. Show me where.”评审、代码审查、逻辑验证最好用
-“If you don't know exactly, say UNKNOWN.”把不确定变成可识别信号
-“You are a [role]. Never [that role's most common failure mode].”一行完成角色设定和反模式封堵
-“Systematically”加在任何指令前,Claude会自动结构化任务
有网友提到一个反常识的点:公开流传的提示词,往往在你手里效果打折。因为提示词的输出高度依赖对话上下文,原作者隐性提供了大量背景,你复制的只是字面,不是那个上下文。
所以真正的问题或许是:你到底需要AI给你答案,还是帮你想清楚问题本身?
MiniMax Skills 专为 AI 编码助手打造了一套结构化的开发技能库,覆盖从前端动画、全栈集成,到安卓 iOS 原生开发,再到 GLSL 着色器视觉特效。
项目不仅支持丰富技术栈和产业标准,还能兼容多种 AI 工具如 Claude、Cursor、Codex 和 OpenCode,通过简单配置即可集成使用,极大提升开发效率和代码质量。
主要内容:
- 前端开发:React / Next.js + Tailwind CSS,支持动态图形与 AI 生成媒体;
- 全栈开发:REST API、认证、安全、实时通信及数据库整合指南;
- 安卓原生:Material Design 3,Jetpack Compose,性能与易用兼顾;
- iOS 应用:SwiftUI、UIKit、Apple HIG 标准实现无障碍设计;
- 着色器开发:GLSL 高级技巧,流体、粒子和光影特效制作;
- 丰富文档生成:PDF、PPTX、XLSX、DOCX 格式的创建与编辑。
支持多平台插件,适合 AI 辅助开发者、培训机构和大型团队协作。
Supermemory团队用多智能体协作系统在长期记忆基准测试LongMemEval上达到99%准确率,核心突破是用3个并行搜索Agent替代传统向量检索,让AI通过“理解”而非“数学相似度”来回忆信息。这套方案不需要向量数据库,甚至可以嵌入机器人。
向量数据库可能不是AI记忆的最优解。
Supermemory在LongMemEval基准测试(11.5万token对话历史)上达到99%准确率,用的方法反而更简单:完全抛弃向量检索,改用多个Agent协作。
传统RAG的问题出在检索环节。语义相似度匹配根本分不清“旧事实”和“新更正”,当检索结果里混杂太多噪音,大模型就会迷失。
他们的解法是ASMR(Agentic Search and Memory Retrieval):
信息摄取阶段,3个并行Observer Agent同时读取对话记录,按照个人信息、偏好、事件、时间数据等六个维度提取知识点,直接存储结构化内容而非生成embedding。
检索阶段才是关键。面对提问时不查询数据库,而是派出3个专门的搜索Agent——一个找直接事实,一个挖隐含语境,一个重建时间线。这些Agent是在“主动阅读和推理”,不是在做向量余弦计算。
回答阶段用了两种策略测试。第一种是8个高度专业化的prompt变体并行运行(精确计数专家、时间专家、上下文深挖专家等),只要任何一条推理路径答对就算成功,准确率98.6%。第二种是12个Agent独立作答后,由一个聚合器LLM综合投票裁决,准确率97.2%。
有观点认为这套系统证明了“认知理解”比“数学相似性”更适合处理记忆任务。数学只能捕捉表层模式,而Agent可以处理时间序列中的矛盾、更新和细微差别。
更有意思的是,这个架构完全在内存中运行,不依赖外部向量数据库,理论上可以部署到任何设备,包括机器人。他们11天后会开源全部代码。
当数十亿个高度个性化的AI Agent开始学习和记住我们的一切时,记忆系统的天花板在哪里?也许不在算力,而在我们愿意给Agent多少“主动思考”的权限。