Meta开源大模型陷”刷榜"风波
近日,一场关于AI模型基准测试的争议正在科技圈持续发酵。Meta最新发布的开源大模型Llama-4-Maverick在权威评测平台LMArena的排名出现戏剧性变化,从最初的第2名骤降至第32名,这一异常波动揭开了AI行业”刷榜"潜规则的一角。
事件起源于4月6日Meta发布Llama 4系列模型后,其特别优化的"Maverick-03-26-Experimental"版本在LMArena排行榜上异军突起,力压众多竞品位居第二。然而开发者很快发现,该版本与开源社区获得的"HuggingFace同款"存在显著差异。经平台方确认,Meta确实提交了经过特殊调校的"特供版",这种针对性优化使其在人类评分环节获得优势。
这场风波折射出AI行业普遍存在的基准测试困境。LMArena等平台采用的人类偏好评估体系,本意是更贴近实际用户体验,却也为"应试优化"提供了操作空间。当厂商针对特定评测标准调整模型时,虽然能获得漂亮的排名,却可能牺牲模型的通用性和稳定性。这种现象不仅误导开发者,长远来看更会损害整个开源生态的信任基础。
值得注意的是,排名修正后的开源版本Llama-4-Maverick-17B-128E-Instruct表现平平,不仅远逊于谷歌Gemini 2.5 Pro和OpenAI的GPT4o,甚至不及国内厂商深度求索的DeepSeek-V3等模型。这种落差引发了对Meta技术实力的重新评估,也让人质疑其开源策略的诚意。
Meta官方回应称,不同版本是"针对不同使用场景的定制尝试",并强调期待开发者反馈。但这种解释难以平息业界的批评声浪。分析人士指出,在AI竞赛白热化的当下,各大厂商面临巨大的排名压力,但通过技术透明度建立长期信任,远比短期榜单成绩更重要。