五种主流且高效的微调技术,助你用有限资源实现定制化:帖子

1. 传统微调对LLM不现实,因模型参数量庞大,算力成本极高。参数高效微调(PEFT)因此诞生,核心是对权重矩阵做低秩近似,显著降低训练开销。

2. LoRA:在大模型权重矩阵旁添加两个低秩矩阵A和B,只训练这两个小矩阵,节省存储和计算,适合超大模型。

3. LoRA-FA:冻结矩阵A,仅更新B,进一步降低显存需求,保障训练稳定。

4. VeRA:将A、B设为随机且共享,改为学习层特有的缩放向量,实现更轻量的层间适配。

5. Delta-LoRA:在LoRA基础上,动态将A×B的增量“叠加”到原权重W,提升微调灵活性。

6. LoRA+:发现矩阵B比A更需高学习率,调整学习率策略,改善收敛效率。

这些方法不仅降低算力门槛,更是微调方法论的变革——不再盲目调整全部参数,而是精准塑造“关键方向”。未来趋势是结合模型结构智能选点,支持多任务与持续学习,打造可组合、可扩展的“微调语言”。

PEFT不是简单的工程优化,而是智能塑造大模型知识的设计语言,开启了人人可控大模型定制的新时代。
看病怎么选医生 ​​​| #经验
如何评价NeurIPS 2025论文Credal Transformer 对幻觉问题的解决思路?| 知乎帖子
🤖 AI 研究者博客资源大全:跟着全球顶尖 AI 研究者学习,站在巨人的肩膀上。| 飞书版

在 AI 爆发的时代,信息过载是最大的敌人。这份资源帮你:

🎯 精准定位:不再迷失在海量资料中,直达最有价值的内容
🧭 路径清晰:从入门到专家,每个阶段都有明确的阅读指南
🌍 全球视野:覆盖 OpenAI、DeepMind、Anthropic 等顶级机构的一手资料
🇨🇳 本土资源:通义千问、智谱AI、DeepSeek 等中国团队的技术博客

📖 两份核心文档
1️⃣ AI博客资源-精读指南.md
👉 推荐首先阅读

文章形式,阅读体验更好。包含:

按派别分类的博主介绍(百科全书派、机制解释派、架构扩展派...)
初学者 → 进阶 → 专家的学习路径
按角色推荐(工程师/研究员/管理者)
持续学习建议
2️⃣ AI博客资源-完整索引.md
👉 当作字典查阅

表格形式,信息更全。包含:

40+ 国际顶级研究者博客
20+ 中国 AI 团队博客
15+ 公司官方博客
10+ 学术机构博客
快速链接汇总表
Hot Chips 2025的演讲PPT下载,也有youtube视频链接

Hot Chips 2025 是全球半导体与高性能计算领域的顶级技术峰会,是今年8月举办的。想学AI硬件的可关注
Google 最新发布了针对 Gemini 3 Pro 的系统指令(System Instructions),在多项代理型任务基准测试中性能提升约5%。这些改进重点在于增强智能体的持久性、风险评估和主动规划能力,从而提升多步骤工作流的可靠性和稳定性。

核心思路是:复杂智能体需要系统化的行为规范,才能在实际应用中表现出更高的连贯性和执行力。通过规范智能体的推理和计划流程,避免盲目行动,确保每一步都有清晰的逻辑依据和风险控制。

开发者社区也分享了如何快速集成这套指令:
1. 在项目根目录新建 .gemini 文件夹
2. 在该文件夹创建 .env 文件,写入 GEMINI_SYSTEM_MD=1
3. 新建系统指令文件,复制官方模板内容
4. 完成后,Gemini CLI 和 Code Assist 就会根据这些指令执行任务

此外,也可将该配置放入用户主目录,统一管理所有项目的行为规范。

这套系统指令的价值不仅是提升5%的性能,更重要的是展示了“提示工程”中细节调整对智能体行为的深远影响。小小的框架变化,能彻底改变模型的推理深度和执行策略。这个进步提醒我们,AI 不仅是算力和模型,系统设计和指令层面的优化同样关键。

值得深思的是,智能体的“思考过程”应当被清晰地规划和评估,而非直接给出结果。让模型在内部严格推理、权衡风险,再输出最终答案,是打造可靠AI的必由之路。
Accurate predictions on small data with a tabular foundation model》| paper

这篇论文堪称突破性成果,解决了机器学习领域长期的尴尬——尽管深度学习在图像、文本和游戏领域横扫千军,传统基于树的方法(如XGBoost、CatBoost、随机森林)却在表格数据上稳坐霸主地位近二十年。表格数据是现实应用中最常见的数据格式,深度学习一直难以攻克。

这篇发表在《Nature》上的论文带来了一个基础模型TabPFN,首次在小到中等规模数据集上,显著超越了树模型的表现,而且速度快得惊人。TabPFN仅用2.8秒就跑赢了需要调参4小时的CatBoost,速度提升了5000倍,这不仅是量变,而是质变。

它的训练方式也极为创新:GPT靠海量网络文本训练,CLIP靠图文对训练,而TabPFN完全依赖合成数据——通过生成超过1亿个人工因果图数据集,模拟各种复杂结构。每个图通过不同的随机变换生成特征和目标,加上真实世界中常见的缺失值和异常值,模型在完全不见真实数据的情况下,学习到普适的预测策略。

推理时,TabPFN也不走寻常路:它不微调、不提示,而是在一次前向传播中同时完成“训练”和预测。将带标签的训练集和无标签测试集一起输入,立即输出结果,无需梯度下降,因为模型预训练时已学会如何从示例中学习。

其架构设计尊重表格结构,采用双向注意力机制——先在行内特征间,再在列内样本间进行交互,区别于将所有数据平铺为序列的传统Transformer。换句话说,这个Transformer已学会监督学习本身。

这个突破的意义,不仅是深度学习终于在表格数据领域找到了“制胜之道”,更体现了“元学习”的力量——模型学习的是“如何学习”,而非单一模式。这是从单纯拟合数据到掌握学习算法的根本飞跃。

当然,这项技术也有局限:目前TabPFN适用数据规模约为一万条以内,因其上下文窗口限制,计算复杂度为平方级别,难以直接替代百万级大数据场景的XGBoost。且其推理时比树模型更耗资源,不适合超高频实时预测。

总结来看,TabPFN不是要取代树模型,而是为小样本、复杂结构数据提供了全新的、更快的解决方案,扩展了机器学习工具箱的边界。它是“先验胜过数据”的典范,开启了表格数据深度学习的新纪元。
编辑PDF文档从未如此简单。Nano PDF 是一款基于命令行的 PDF 编辑工具,利用谷歌 Gemini 3 Pro Image(昵称“Nano Banana”)模型,实现通过自然语言指令直接修改PDF幻灯片内容。| #工具

它支持:
- 用自然语言修改图表、文字内容,比如“把图表改成柱状图”;
- 自动生成与原有幻灯片风格一致的新幻灯片;
- 保留PDF中的可搜索文本层,保证内容不丢失;
- 一次编辑多页,且并行处理提升效率;
- 支持OCR文字层重建,确保编辑后文本依然可选。

安装简单,依赖Python环境和系统上的Poppler、Tesseract支持。只需配置谷歌付费API密钥,即可启动强大AI驱动的PDF智能编辑。

适合需要频繁调整演示文稿、报告或教材的专业人士和团队
如何复制任意网络图片的风格?Machina分享了一个3步风格克隆法,简单高效:

1. 把图片复制粘贴到Gemini 3.0(带视觉识别功能)
2. 用提示词:“提取此视觉风格为JSON结构化数据:颜色、字体、构图、特效……(extract this visual style as JSON structured data: colors, typography, composition, effects...)”
3. 保存这个上下文文件,随时注入,轻松复刻风格

这套方法让设计风格变成了“可携带的文件”,大大降低了非设计师的门槛,真正实现风格的“数字复制”。电脑视觉的潜力被低估了,它不仅能识别,更能赋能创造。

有人质疑Gemini是否能捕捉风格的“灵魂”,这也提醒我们技术虽强,但设计的深度和情感仍需人类智慧驾驭。未来,AI辅助创作将是趋势,但人类的审美判断依然不可替代。
想让AI帮你做出精彩的PPT演示,试试这些高效提示语:帖子

1. 【全套演示创建者】
“扮演世界级演示制作大师,围绕[主题]做一份完整的逐页PPT。包括标题页、关键点、实例、数据、比喻、视觉建议及结束的行动号召。”

2. 【深度研究演示】
“基于深度调研,制作关于[主题]的完整演示。包含真实统计数据、案例分析、专家引用、实用见解和示例。每页内容都要有教育意义、引人入胜且有权威支撑。”

3. 【简明易懂演示】
“为初学者设计关于[主题]的演示。用简单解释、类比和逐步逻辑拆解复杂概念,确保连10岁孩子都能完全理解。”

4. 【商业路演PPT】
“帮我做一个完整的投资者路演PPT,主题是我的商业创意:[创意描述]。涵盖问题陈述、解决方案、市场规模、产品功能、商业模式、竞争优势、财务预测和团队介绍。”

5. 【故事化演示大师】
“用故事结构制作关于[主题]的完整演讲:引入→冲突→历程→洞察→转变→行动号召。让PPT情感丰富、难忘且具说服力。”

6. 【正式企业演示】
“做一份正式、企业风格的演示,主题是[主题]。包含专业语调、条理清晰的要点、图表、SWOT分析、趋势预测和数据支持的建议,适合董事会场合。”

7. 【演示+讲稿全包】
“做一份关于[主题]的完整演示,并写出匹配的演讲稿。我能边看PPT边念,讲稿要符合语气、节奏和情感起伏,包含停顿、强调和故事元素。”
Back to Top