MIT与英伟达合作开发TLT技术,大模型训练效率最高提升210%
2月28日,据报道,麻省理工学院联合英伟达等机构发布了一项名为“驯服长尾”(TLT)的新技术,旨在大幅提升推理大语言模型的训练效率。该技术通过优化强化学习过程中的算力分配,在保持模型准确率的前提下,将训练速度提升了70%至210%。
研究团队发现,在推理大模型的强化学习训练中,生成多个备选答案的“推演”阶段占据了高达85%的训练时间。由于不同处理器生成回答的长度差异较大,完成较快的处理器只能被迫闲置,等待长文本任务完成,形成严重的效率瓶颈。
TLT技术的核心创新在于运用了“投机解码”机制。系统训练一个较小的“草稿模型”来快速预测大模型的未来输出,随后由大模型批量验证这些猜测,从而使大模型无需逐个顺序生成输出,大幅加快处理进程。
在传统投机解码中,草稿模型通常只训练一次并保持静态。但在强化学习中,主模型需要更新数千次,静态草稿模型会迅速失效。为此,TLT引入了“自适应草稿训练器”:一旦部分处理器完成短查询进入闲置状态,系统会立即调度它们实时训练草稿模型。同时,“自适应推演引擎”根据工作负载特征自动调整解码策略,确保草稿模型始终与目标大模型保持同步,且不增加额外算力开销。
基于真实数据集的测试表明,TLT技术在保持模型准确率完全无损的情况下,将多个推理大语言模型的训练效率提升了70%到210%。不仅如此,训练得到的轻量级草稿模型还可作为副产品直接用于后期的高效部署。