蚂蚁集团百灵大模型推出Ling-2.6-flash并正式开源,提供多版本灵活部署
4月29日,蚂蚁集团旗下百灵大模型宣布,Ling-2.6-flash正式开源。同步提供BF16、FP8、INT4等多个版本,以便开发者根据不同的硬件环境、推理成本与部署需求灵活选用。
Ling-2.6-flash是一款总参数量为104B、激活参数为7.4B的Instruct模型。两周前曾以“Elephant Alpha”的匿名身份在OpenRouter平台上亮相。官方表示,在过去两周中,团队持续收集来自开发者的真实使用反馈,并针对Ling-2.6-flash的使用体验进行了多轮优化。具体改进包括:进一步提升了中英文自然切换能力,同时增强了模型在主流Coding框架中的适配效果。
据介绍,Ling-2.6-flash的核心能力主要体现在以下三个方面:其一,混合线性架构,提升推理效率。 通过引入混合线性架构,模型从底层优化计算效率。在4卡H20环境下,推理速度最快可达340 tokens/s,Prefill吞吐量达到Nemotron-3-Super的2.2倍。
其二,Token效率优化,提高智效比。 在训练过程中,团队对Token效率进行了针对性校准,力求以更精简的输出完成既定目标。在Artificial Analysis的完整评测中,Ling-2.6-flash仅消耗15M tokens,约为Nemotron-3-Super等模型的十分之一。
其三,面向Agent场景定向增强。 针对当前需求旺盛的Agent应用场景,模型在工具调用、多步规划与任务执行能力上持续打磨。在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等评测中,即使面对激活参数更大的模型,Ling-2.6-flash仍能取得相近甚至SOTA级别的表现。