阿里云推出多模态交互开发套件,通义大模型加速智能硬件“内化”
1月8日,在阿里云举办的“通义智能硬件展”上,阿里云正式发布了一套专为AI硬件设备设计的多模态交互开发套件。该套件集成“千问”、“万相”、“百聆”三款通义基础大模型,并内置了十余个覆盖生活休闲、工作效率等场景的预置智能体(Agent)与工具(MCP),旨在帮助硬件厂商快速开发具备听、看、思考及物理交互能力的智能终端。
该套件旨在降低硬件企业的开发门槛。在底层适配层面,其已支持超过30款主流ARM、RISC-V和MIPS架构的终端芯片,可覆盖市场上绝大多数硬件设备的快速接入需求。阿里云进一步透露,未来通义大模型将与阿里自研的玄铁RISC-V处理器实现软硬协同优化,提升大模型在RISC-V架构上的部署与推理效率。
在模型层面,除通义家族基础模型外,阿里云还专门针对硬件交互场景优化了专有模型。该套件全面支持全双工语音、视频及图文交互,可实现端到端语音交互延迟低至1秒、视频交互延迟低至1.5秒的实时响应能力。
为丰富应用生态,套件中预置了包括出行规划、生活助手在内的多款即用型Agent与MCP工具,并接入了阿里云百炼平台的开放生态。开发者可灵活引入平台上的其他工具模板,或通过标准协议集成第三方智能体,从而快速构建个性化业务场景。
在展会现场,阿里云展示了基于该套件的多个垂直解决方案。例如,在AI眼镜场景中,结合千问视觉语言模型与百聆语音模型,可实现同声传译、拍照翻译及多模态备忘录等一体化功能;在家庭陪伴机器人领域,解决方案不仅支持异常状况监测与告警,还能让用户通过自然对话与机器人交互,并实现基于语义的视频检索和设备控制。
此次多模态交互开发套件的发布,标志着阿里云正将大模型能力系统性地下沉至终端硬件。通过提供从芯片适配、模型优化到应用生态的一体化工具链,阿里云试图推动通义大模型从云端服务向各类智能设备“内化”,加速AI在消费电子、智能家居、机器人等领域的普及与场景创新。