AMD去年尾发表过Nitro-T , 而日前正式发布Nitro-T系列及公开下戴, 这是专注于高效训练的文字转图像扩散模型, Nitro-T 仅使用32 颗AMD Instinct MI300X GPU从零开始训练不到一天, 即可达到竞争性的效果
Nitro-T 提供两种variants , 已可在huggingface9免费下载:
– 0.6B 参数的Diffusion Transformer (DiT):最佳化于512px 图像生成
– 1.2B 参数的Multimodal Diffusion Transformer (MMDiT):最佳化于高解析度1024px 图像生成
这些模型使用Llama 3.2 1B 模型作为文字条件输入并采用可缩短patch 序列长度、加速收敛与提升训练吞吐量的策略与设计选择