黑洞资源笔记
15:25 · May 6, 2024 · Mon
Mu-Transformer
:使用 Jax/Flax 实现的 Transformer 模型,支持 Mu-Parameterization,能在 TPU pods 上运行 FSDP
Home