阿里千问发布Qwen3.5-Omni:全模态大模型自然涌现音视频编程能力
3月30日晚,阿里千问正式发布全模态大模型Qwen3.5-Omni。这款模型能够无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频描述生成,在215项评测中取得SOTA成绩,涵盖音频理解、推理、对话、翻译等多个方向,全面超越Gemini3.1-Pro。
最令人惊喜的是,Qwen3.5-Omni未经专门训练,便自然涌现出了Audio-Visual Vibe Coding能力。上传一段视频,它能生成细粒度、结构化、带时间戳的精确描述:画面中的人物、对话内容、背景音乐变化的时间点、镜头切换次数、每一帧发生的事件……甚至还能判断视频是否包含敏感内容,将长视频转化为可搜索的结构化笔记。更令人惊叹的是,它能根据音视频指令直接生成可运行的代码或前端原型,让创意验证从“看”到“做”只需一步。
在实时对话体验上,Qwen3.5-Omni向真人交互迈出了一大步。它懂得倾听的分寸——咳嗽声或随口附和不会让它误判而停下来,但用户的真正插话它能瞬间接住。用户还可以像指挥真人一样,用“小声点”“用开心的语气”等指令自由控制声音的大小、语速与情绪。配合ARIA技术,语音输出的稳定性和自然度也进一步改善。
音色克隆功能则为个性化交互打开了新空间。用户只需上传一段录音,就能定制专属的AI助手音色,克隆后的声音自然度高、稳定性强,支持多种语言生成。每个人都可以打造一个“数字分身”式助手,用自己的声音去沟通、去陪伴。
Qwen3.5-Omni不仅擅长聊天,更能真正帮用户办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议。原生支持WebSearch和复杂Function Call,让模型从“聊天机器人”进化为“执行助手”。
在技术规格上,Qwen3.5-Omni支持256K超长上下文与113种语言识别,可处理长达10小时的音频或1小时的视频。相比上一代,模型在长上下文、多语言、音视频理解能力上均有明显提升,视觉和文本能力则与同尺寸的Qwen3.5模型持平。