微软发布开源智能体模型Fara-7B,让AI学会操作电脑
11月25日,微软正式推出全新的开源小型语言模型Fara-7B,这是该公司首款专门为计算机操作场景设计的“智能体”模型,能够通过鼠标和键盘自主执行网页任务,标志着AI在端侧设备上的应用进入了新阶段。
Fara-7B作为微软首个面向电脑使用场景的小型语言模型,拥有70亿参数,在同级别模型中展现出领先的性能表现。与传统的聊天模型不同,Fara-7B采用了一种创新的交互方式——通过视觉解析网页截图,直接在屏幕上执行点击、输入、滚动等操作。这种设计使其不再依赖文本交互或额外的可访问性树,也不需要多个大模型协作,实现了真正意义上的“所见即所操作”。
该模型基于Qwen2.5-VL-7B底座构建,支持长达128k的上下文处理能力。在执行任务时,Fara-7B会在预测动作前输出推理内容,并调用Playwright的标准操作及网页宏操作,展现出类似人类的思考与执行过程。
为了训练这个特殊的智能体模型,微软构建了一套全新的合成数据生成流程,专门模拟复杂多步骤的网页任务。这套依托Magentic-One框架的流程涵盖任务生成、任务求解及轨迹验证三个阶段,最终形成了包含14.5万条任务轨迹、100万步骤的庞大数据集。
在性能测试中,Fara-7B表现亮眼。它在WebVoyager、Online-Mind2Web、Deepshop等多项公开基准测试以及微软新公布的WebTailBench中均取得优异成绩,不仅领先于同级模型UI-TARS-1.5-7B,甚至能够与规模更大、通过复杂提示方式驱动的GPT-4o系统竞争。更令人印象深刻的是,经过第三方机构Browserbase的人工验证,该模型在WebVoyager测试中取得了62%的通过率。
考虑到电脑操作智能体模型可能带来的特殊风险,微软在Fara-7B中内置了多重安全防护措施。模型在涉及敏感操作时会停在“关键点”并征求用户同意,所有操作均被记录,并在沙盒环境中运行。这些设计使得Fara-7B在红队测试任务中达到了82%的拒绝率,展现出良好的安全性能。
目前,Fara-7B已在Microsoft Foundry与Hugging Face以MIT许可开源发布,并整合进Magentic-UI研究原型。微软还宣布将提供量化与面向Copilot+ PC的优化版本,用户可通过VSCode的AI Toolkit下载并在Windows 11本地运行,享受NPU加速带来的流畅体验。