编程开发层面,他同时使用Claude Code、KIWI K2.5和Codex处理不同类型的编码任务,Cursor负责调试,Lovable专攻网页原型,Vibecode则用于移动端应用开发。他提到自己手上有二三十个实验性App在排队等着做,这种产出效率在过去是不可想象的。
视觉内容生产线同样丰富:Midjourney负责病毒式传播的图像风格,Grok和Nano Banana Pro作为图像生成的补充选项,Topaz Bloom处理图像放大。视频方面,Veo 3.1、Kling、Grok三管齐下,Topaz Astra负责视频增强。更有意思的是3D领域,Meshy AI可以把图片转成3D模型,DeepMind的Genie则用于构建3D世界。
内容运营工具也相当完整:HeyGen和Higgsfield用于AI虚拟人,Opus Clip做病毒式剪辑,Veed处理字幕,CapCut快速剪辑,ElevenLabs生成语音,Suno生成音乐。
有人问他每月在这些工具上花多少钱,他的回答很有意思:太多了,所以2026年的计划是用自己开发的App替换掉其中一部分。这其实揭示了一个趋势,当AI编程能力足够强,很多垂直SaaS的护城河会被个人开发者逐渐瓦解。
另一条评论也很犀利:这么大的工具栈不是竞争优势,而是订阅噩梦,真正的护城河是你独特的创意品味,不是你租用的工具。他的回应是:谁说我每个月都在为这些付费?
这句话点出了一个容易被忽视的事实。工具的价值不在于拥有多少,而在于你能用它们产出什么。当被问到日常最常用什么时,他的答案是自己用代码构建的内部工具和应用。
掌握AI的方式只有一种,就是把所有工具都用一遍。这话听起来偏执,但在技术剧变期,广泛尝试本身就是一种学习策略。
现在学会这项技能的人,将获得巨大的先发优势。六个月后,这将成为常识。但在那之前开始的人,才是真正的赢家。
大多数人打开Claude Code,对着黑色终端发呆二十分钟。他们看到推特上人人都在发布应用、自动化工具、完整产品,然后默默关掉——因为根本不知道该做什么。
问题不在于Claude Code,而在于他们跳过了最关键的一步。
+ 为什么多数人会失败
Claude Code看起来很吓人:终端界面,光标闪烁,仿佛只有开发者才能驾驭。
其实不然。Claude Code本质上就是一个能“动手干活”的聊天窗口——读取文件、编写代码、搜索网络、构建系统。
失败者并非缺乏技术能力,而是不知道该问什么。他们打开软件时想的是“我应该做个应用”,而不是“有什么事情正在困扰我,可以被解决?”
这才是关键的思维转变。
+ 四步工作流
我见过很多人从“不知道做什么”到每周节省数小时,他们都遵循相同的流程。
第一步:盘点你的一周
在打开Claude Code之前,拿张纸写下上周所有重复、繁琐、恼人的事情:研究竞品、整理报告、搬运数据、写重复邮件、整理文件。
这些不是性感的产品创意,不会获得点赞。但它们是你真实存在的问题——这才是重点。你的第一个自动化不应该是业余项目,而应该是那些每周吃掉你两三个小时的琐事。
第二步:与Claude探索方案
现在打开Claude Code,但不要急着让它构建任何东西。先描述你要解决的问题:
“我每周花两小时研究竞品的YouTube频道,查看热门视频、分析趋势。有没有办法自动化?”
然后要求它给出选项:“给我三种不同方案,说明各自优缺点。”
这里有个关键:追求更简单的方案。如果Claude建议需要配置API密钥和计费,就问“有没有免费版本不需要这些?”通常都有。
不要接受第一个答案,把它当作与专家的对话来对待。
第三步:先规划再构建
这是多数人搞砸的地方。他们一兴奋就说“好,开始做”,然后放任Claude运行。
这是个坏主意。AI会做大量假设,跳过规划步骤意味着这些假设会变成日后的bug。
正确做法:按Shift+Tab切换到“计划模式”,告诉Claude写一份规格说明——功能、输入、输出的样子,先不写代码。审查规格说明后,砍掉第一版不需要的一切。
AI总是想做太多,你会看到没要求的功能和不必要的复杂度。规格说明是你与Claude的契约,批准后再让它动手。
这一步花十分钟,能省下数小时的调试时间。
第四步:构建与迭代
现在可以让Claude按规格实现了。它会创建文件、编写代码、搭建系统——你不需要理解任何一行。
出错时(肯定会的),复制错误信息粘贴回去,说“修复这个”。
这就是循环:构建、出错、修复、重复。
不要期望第一次就完美,期望的是一个可以改进的工作草稿。
+ 实战案例:YouTube研究器
我想自动化竞品YouTube研究,手动做需要每周两小时。
我告诉Claude问题后,它给了三个选项:官方API(设置复杂)、网页抓取(不稳定)、免费工具yt-dlp。我问yt-dlp是否更简单,确认后无需API密钥,直接可用。
切换到计划模式要求规格说明后,我砍掉了它自作主张添加的“缩略图分析”功能。十分钟后,我有了一个工作命令:输入频道名,获得完整研究报告。
曾经两小时的工作,现在三十秒完成。
+ 70/80法则
这里有个没人告诉你的真相:这种编程方式70%到80%的工作是写文档,不是写代码。
计划、规格、需求、用大白话描述你想要什么。AI写代码,你的工作是把需求解释得足够清楚,让它不做错误假设。
这正是非技术人员能做好这件事的原因。你比拼的不是编码能力,而是沟通能力、清晰度、具体性。如果你能写一封清晰的邮件,你就能做到这一切。
+ 真正的技能
让我直说正在发生什么:你不是在学编程,你是在学习管理一个替你编程的AI。
这是不同的技能,而现在几乎没人掌握它。
在Claude Code上取得成功的不是开发者,而是那些知道该解决什么问题、能清晰表达问题的人。技术能力每天都在被AI商品化,AI写的代码已经比大多数初级开发者更好了。
但知道该解决哪些问题?知道如何把大目标拆成小步骤?知道如何审查输出、发现错误?这是人类的工作,不会消失。
+ 窗口期
六个月后人人都会知道怎么做这些。Claude Code会有更友好的界面,会有课程和认证,一切会变得理所当然。
现在它仍然感觉困难、吓人,好像需要许可才能尝试。你不需要。
今天培养这项技能的人将拥有巨大的领先优势——不是因为技能本身有多难,而是因为他们在一切变得显而易见之前就开始了。
工具是免费的,机会就在眼前。别再盯着空白终端发呆了,开始和它对话吧。
50小时,从零到能训练大语言模型 | 帖子 |#机器学习 #指南
这是一份经过验证的机器学习工程师养成指南。作者教过数百万人编程,这套路径是他总结出的最优解。
先说一个残酷的事实:大多数人把技术视频当Netflix看,被动观看,随手记几笔,一周后忘得干干净净。这种学习方式注定失败。
真正有效的方法是两遍学习法。
第一遍:纯粹观看。不记笔记,不暂停,不跟着敲代码。目标是在脑中建立知识的整体框架,理解概念之间的关联。你在搭建一个脚手架,细节稍后再填充。
第二遍:主动学习。打开笔记本,打开代码编辑器,开始真正的学习。频繁暂停,用自己的话重述概念,亲手敲出每一行代码。然后打破它,修改参数看看会发生什么,有想法就去尝试。第二遍的时间通常是视频时长的两到三倍,这才是学习真正发生的地方。
那些成为顶尖ML工程师的人,并不比你聪明。他们只是在别人用两倍速刷视频时,进行着这种刻意练习。
关于ML工程师的定位,很多人存在误解。ML工程师的核心工作是训练和微调模型、构建数据管道、将模型部署到生产环境、优化速度和成本、监控模型性能。你需要掌握的是Python编程、足够理解原理的线性代数和微积分、神经网络的机械运作方式、Transformer架构,以及用代码实现这一切的能力。
学习路径分为三个阶段。
第一阶段用3Blue1Brown的视频建立直觉,大约需要10到15小时。Grant Sanderson是互联网上最好的数学教育者,他的神经网络系列能让抽象概念变得可视化。从神经网络基础、梯度下降、反向传播,到大语言模型和Transformer架构,这些视频会给你一个比大多数人都清晰的心智模型。
第二阶段是Andrej Karpathy的课程,需要30到40小时。Karpathy是OpenAI创始成员、特斯拉前AI高级总监,他的课程教你真正动手构建。你会从零开始实现自动微分引擎micrograd,构建字符级语言模型makemore,最终亲手搭建GPT。这个过程中,你会理解反向传播到大多数从业者永远达不到的深度。特别是那个构建GPT的视频,让成千上万人真正理解了现代AI的工作原理。
第三阶段是补充视频,大约5小时,用于加深对LLM整体训练流程的理解,包括预训练、监督微调、强化学习,以及如何思考模型的幻觉和工具使用。
总计约50小时的专注学习。
这里有一个值得深思的点:所有这些顶级资源都是免费的,就在YouTube上。真正稀缺的从来不是信息,而是愿意进行刻意练习的决心。
另一个现实是,学完这些能让你理解现代AI的底层原理,但要成为真正的ML工程师,还需要在实际项目中积累经验。理论和实践之间的鸿沟,只能通过不断构建真实系统来跨越。
最好的学习者不会等待完美的课程或合适的训练营。他们从最好的免费资源开始,然后投入刻意练习。
开始看,开始建。
这是一份经过验证的机器学习工程师养成指南。作者教过数百万人编程,这套路径是他总结出的最优解。
先说一个残酷的事实:大多数人把技术视频当Netflix看,被动观看,随手记几笔,一周后忘得干干净净。这种学习方式注定失败。
真正有效的方法是两遍学习法。
第一遍:纯粹观看。不记笔记,不暂停,不跟着敲代码。目标是在脑中建立知识的整体框架,理解概念之间的关联。你在搭建一个脚手架,细节稍后再填充。
第二遍:主动学习。打开笔记本,打开代码编辑器,开始真正的学习。频繁暂停,用自己的话重述概念,亲手敲出每一行代码。然后打破它,修改参数看看会发生什么,有想法就去尝试。第二遍的时间通常是视频时长的两到三倍,这才是学习真正发生的地方。
那些成为顶尖ML工程师的人,并不比你聪明。他们只是在别人用两倍速刷视频时,进行着这种刻意练习。
关于ML工程师的定位,很多人存在误解。ML工程师的核心工作是训练和微调模型、构建数据管道、将模型部署到生产环境、优化速度和成本、监控模型性能。你需要掌握的是Python编程、足够理解原理的线性代数和微积分、神经网络的机械运作方式、Transformer架构,以及用代码实现这一切的能力。
学习路径分为三个阶段。
第一阶段用3Blue1Brown的视频建立直觉,大约需要10到15小时。Grant Sanderson是互联网上最好的数学教育者,他的神经网络系列能让抽象概念变得可视化。从神经网络基础、梯度下降、反向传播,到大语言模型和Transformer架构,这些视频会给你一个比大多数人都清晰的心智模型。
第二阶段是Andrej Karpathy的课程,需要30到40小时。Karpathy是OpenAI创始成员、特斯拉前AI高级总监,他的课程教你真正动手构建。你会从零开始实现自动微分引擎micrograd,构建字符级语言模型makemore,最终亲手搭建GPT。这个过程中,你会理解反向传播到大多数从业者永远达不到的深度。特别是那个构建GPT的视频,让成千上万人真正理解了现代AI的工作原理。
第三阶段是补充视频,大约5小时,用于加深对LLM整体训练流程的理解,包括预训练、监督微调、强化学习,以及如何思考模型的幻觉和工具使用。
总计约50小时的专注学习。
这里有一个值得深思的点:所有这些顶级资源都是免费的,就在YouTube上。真正稀缺的从来不是信息,而是愿意进行刻意练习的决心。
另一个现实是,学完这些能让你理解现代AI的底层原理,但要成为真正的ML工程师,还需要在实际项目中积累经验。理论和实践之间的鸿沟,只能通过不断构建真实系统来跨越。
最好的学习者不会等待完美的课程或合适的训练营。他们从最好的免费资源开始,然后投入刻意练习。
开始看,开始建。
一篇在 2026 年真正掌握 AI Agent(智能体)技术的硬核指南。
作者 Paolo Perrone 批评了大多数教程只教皮毛,并提供了一份为期 6-9 个月的实用学习路线图,期望该教程能让你成为开发出实际解决问题的生产级系统的开发者,而不仅仅是做演示 demo。
内容先从数学基础、编程能力、机器学习基础开始,最后在演进到理解 Agent 原理和开始构建。
作者:于静 中科院信息工程研究所,副研究员
本系列报告面向刚刚开始从事科学研究或者将要从事科学研究的研究生和本科生,介绍科学研究的基本信息(意义、目标、大体流程、一些小建议等),重点以一些具体论文实例介绍学术论文写作规范和科学方法,旨在帮助学生形成科学、系统、规范的科研和写作思维与方法。
本系列报告包括以下几方面内容:
(1)首先介绍学术研究与学术论文写作的关系,引出刚刚开始从事科学研究的低年级研究生和高年级本科生在英文学术论文写作中常见的问题及原因;
(2)报告重点以一些具体论文实例介绍高水平英文学术论文的科学思维、写作规范和修改过程,详细剖析一篇高水平论文在标题、摘要、引言、相关工作、研究方法、实验分析、总结与展望、参考文献等各部分的写作思路、相互关系、常见问题及改进方法,分享论文写作和论文修改的关键时间节点和建议;
(3)如何确定论文引言和方法的写作逻辑和内容?报告将详细剖析如何通过画好论文研究动机示意图和模型框架图梳理论文立意、贡献和方法,并通过一些论文从0到1十几个版本画图的修改过程介绍论文逐步完善的写作过程;
(4)如何写出语言规范、简洁、严谨的英文学术论文?报告将介绍基本的写作规范,并通过实例分析常见问题;
(5)如何在日常研究中循序渐进积累、把握科研节奏、从容面对 deadline?报告重点围绕如何找论文、讲论文、梳理论文介绍5List的积累方法和有效工具,包括 Paper List、Idea List、Math List、English List、Code List。
“无需 4090,6GB 显存笔记本也能生成带中文字的商业级海报!
Z-Image 作为一款高效能、轻量化的生成式 AI 模型,不仅推理速度快,更原生支持中英双语理解与精准渲染。本文将从模型下载 → 配置 ComfyUI → 撰写提示词 → 解决常见报错,手把手带你完成 Z-Image 的本地部署与实战使用,小白友好。”
是一款开源的 AI 助手,将 Google 的 Gemini 模型的强大功能直接带入你的终端。它作为一个对话式的“智能”命令行工具工作——这意味着它能够推理你的请求、选择工具(如执行 shell 命令或编辑文件),并执行多步计划以帮助你的开发工作流程。
提示 1:使用 GEMINI.md 以保持持久上下文
提示 2:创建自定义斜杠命令
提示 3:通过您的自有 MCP 服务器扩展 Gemini
提示 4:利用记忆添加和回忆
提示 5:使用检查点和 /restore 作为撤销按钮
提示 6:读取 Google Docs、Sheets 等
提示 7:使用 @ 引用文件和图像以明确上下文
提示 8:动态创建工具(让 Gemini 构建助手)
提示 9:使用 Gemini CLI 进行系统故障排除和配置
提示 10:YOLO 模式 - 自动批准工具操作(谨慎使用)
提示 11:无头和脚本模式(在后台运行 Gemini CLI)
提示 12:保存并恢复聊天会话
提示 13:多目录工作空间 - 一个 Gemini,多个文件夹
提示 14:使用 AI 协助整理和清理文件
提示 15:压缩长对话以保持上下文
提示 16:通过 ! 传递 Shell 命令(与终端对话)
提示 17:将每个 CLI 工具视为潜在的 Gemini 工具
提示 18:利用多模态 AI - 让 Gemini 查看图像等
提示 19:自定义 PATH(以及工具可用性)以提高稳定性
提示 20:通过令牌缓存和统计信息跟踪和减少令牌消耗
提示 21:使用 /copy 进行快速剪贴板复制
提示 22:掌握 Ctrl+C 用于 Shell 模式和退出
提示 23:通过 settings.json 自定义 Gemini CLI
提示 24:利用 IDE 集成(VS Code)获取上下文和差异
提示 25:使用 Gemini CLI GitHub Action 自动化仓库任务
提示 26:启用遥测以获取洞察和可观察性
提示 27:关注路线图(背景代理等)
提示 28:通过扩展来扩展 Gemini CLI
提示 29:柯基模式彩蛋 🐕
这是一份Linux/Unix环境下进程间通信(IPC)的权威指南,涵盖从基础到进阶的多种技术,适合系统编程初学者与进阶者。
核心内容包括:
1. fork()详解:理解进程复制机制,助你掌控进程创建与管理。
2. 信号(Signals):教你捕获和处理信号,提升程序响应能力与稳定性。
3. 管道(Pipes)与FIFO:实现进程间数据流动,支持单向和命名管道通信。
4. 文件锁(File Locking):避免资源争用,确保数据一致性。
5. 消息队列(Message Queues):异步消息传递,提高进程间通信效率。
6. 信号量(Semaphores):同步多进程访问共享资源,防止竞态条件。
7. 共享内存(Shared Memory):高速共享数据,适合大规模数据交换。
8. 内存映射文件(Memory Mapped Files):文件与内存高效映射,方便持久化数据处理。
9. Unix套接字(Unix Sockets):支持全双工通信,灵活构建本地客户端-服务器架构。
每个章节配有示例代码,细致讲解API调用和使用场景,帮助开发者深入理解操作系统底层IPC机制。
思考与启示:
掌握IPC不仅是写出多进程程序的基础,更是构建高性能、健壮系统的关键。Beej指南条理清晰,语言幽默,实用性强,建议系统编程爱好者必读,助力你掌握进程协作的核心技术,写出更高效、更可靠的应用。
• 采样基础:模型首先计算所有词元(token)的概率分布,再通过采样方法从中选择下一个词元。直觉上选概率最高的“贪婪采样”容易导致输出单调重复,而采样引入“控制随机性”提升多样性。
• 词元分解:采用子词(token)而非单词或字符,既解决了词汇表庞大和未知词问题,又避免了字符级爆炸性序列长度,增强了模型的泛化与跨语言能力。
• 采样技术多样:涵盖温度调节(temperature)、频率惩罚(frequency penalty)、Top-K、Top-P(核采样)、Min-P、DRY(不重复自己)、尾部自由采样(Tail-Free Sampling)、Mirostat自适应采样、Beam Search、对比搜索(Contrastive Search)等。每种方法各有侧重点,如温度调节控制“创造力”,Top-K限制候选词数量,DRY防止n-gram重复,Mirostat动态调整采样以维持稳定惊讶度。
• 采样顺序影响显著:先后执行顺序决定最终概率分布形态。如先温度调节后过滤,会放大概率差异,先过滤后温度则限制选项更严格。惩罚机制放置在前后也会影响重复抑制效果。
• 交互效应:部分采样器组合协同增效(如Top-K+Top-P),而某些组合则相互冲突(如高温度+低Top-K过度限制多样性)。
• 词元化器(tokenizer)设计:BPE和SentencePiece两大主流方法,前者基于频率合并字符对,后者对原始Unicode流编码并显式处理空白,均影响模型预测空间和采样策略的灵活性。
• 采样算法伪代码详解:文档提供了完整伪代码,便于深度理解与实现,如温度采样通过调整logits的比例,DRY通过检测重复n-gram模式动态施加指数惩罚,Mirostat通过反馈控制实现目标惊讶度。
• 长期洞察:合理采样不仅提升即时生成质量,更影响模型在多样性、上下文理解和连贯性之间的权衡,决定了应用场景(创作、对话、代码生成等)的适用性和效果。
了解采样技术的这些本质与细节,有助于构建更智能、更可控的文本生成系统,推动大语言模型实用化和创新边界。
现代采样器入门指南 | #指南