爱丽丝漫游可微仙境:Alice’s Adventures in a differentiable wonderland | #电子书
这是本一路用直观的语言和可运行的代码教会你亲手构建现代神经网络的书。“神经网络无处不在——大型语言模型、语音转写、分子发现算法、机器人系统……剥开外衣,它们都只是可微基元的组合;研究神经网络,就是在学习如何“编程”并与这些模型交互,这正是所谓的“可微编程”。
这本入门读物,为像爱丽丝一样刚刚跌入这片奇异可微仙境的你而写。我将概览如何通过自动微分来优化函数,并精选最常见的架构来处理序列、图、文本与音频。
全书聚焦直觉、自成体系地介绍最重要的设计技巧——卷积块、注意力块、循环块——力求在理论与代码(PyTorch 与 JAX)之间架起桥梁,使读者最终能够理解当今最前沿的模型,如大语言模型 (LLM) 与多模态架构。”
作者现在开始写第二卷了,先放出了一章介绍强化学习的:内容涉及大型语言模型的后训练技术,聚焦于强化学习在模型微调中的作用 。内容兼具广度(历史演进)与深度(数学推导)的技术文档。系统讲解了从奖励建模(Reward Modeling)、策略梯度(Policy Gradient)到PPO、GRPO及DPO等前沿算法的数学推导与应用细节 。
这是本一路用直观的语言和可运行的代码教会你亲手构建现代神经网络的书。“神经网络无处不在——大型语言模型、语音转写、分子发现算法、机器人系统……剥开外衣,它们都只是可微基元的组合;研究神经网络,就是在学习如何“编程”并与这些模型交互,这正是所谓的“可微编程”。
这本入门读物,为像爱丽丝一样刚刚跌入这片奇异可微仙境的你而写。我将概览如何通过自动微分来优化函数,并精选最常见的架构来处理序列、图、文本与音频。
全书聚焦直觉、自成体系地介绍最重要的设计技巧——卷积块、注意力块、循环块——力求在理论与代码(PyTorch 与 JAX)之间架起桥梁,使读者最终能够理解当今最前沿的模型,如大语言模型 (LLM) 与多模态架构。”
作者现在开始写第二卷了,先放出了一章介绍强化学习的:内容涉及大型语言模型的后训练技术,聚焦于强化学习在模型微调中的作用 。内容兼具广度(历史演进)与深度(数学推导)的技术文档。系统讲解了从奖励建模(Reward Modeling)、策略梯度(Policy Gradient)到PPO、GRPO及DPO等前沿算法的数学推导与应用细节 。