阿里千问发布Qwen3.5-Omni：全模态大模型自然涌现音视频编程能力

2026-03-31 15:31:51 | 弘乐 | 1018

3月30日晚，阿里千问正式发布全模态大模型Qwen3.5-Omni。这款模型能够无缝理解文本、图片、音频及音视频输入，支持细粒度、带时间戳的音视频描述生成，在215项评测中取得SOTA成绩，涵盖音频理解、推理、对话、翻译等多个方向，全面超越Gemini3.1-Pro。

最令人惊喜的是，Qwen3.5-Omni未经专门训练，便自然涌现出了Audio-Visual Vibe Coding能力。上传一段视频，它能生成细粒度、结构化、带时间戳的精确描述：画面中的人物、对话内容、背景音乐变化的时间点、镜头切换次数、每一帧发生的事件……甚至还能判断视频是否包含敏感内容，将长视频转化为可搜索的结构化笔记。更令人惊叹的是，它能根据音视频指令直接生成可运行的代码或前端原型，让创意验证从“看”到“做”只需一步。

在实时对话体验上，Qwen3.5-Omni向真人交互迈出了一大步。它懂得倾听的分寸——咳嗽声或随口附和不会让它误判而停下来，但用户的真正插话它能瞬间接住。用户还可以像指挥真人一样，用“小声点”“用开心的语气”等指令自由控制声音的大小、语速与情绪。配合ARIA技术，语音输出的稳定性和自然度也进一步改善。

音色克隆功能则为个性化交互打开了新空间。用户只需上传一段录音，就能定制专属的AI助手音色，克隆后的声音自然度高、稳定性强，支持多种语言生成。每个人都可以打造一个“数字分身”式助手，用自己的声音去沟通、去陪伴。

Qwen3.5-Omni不仅擅长聊天，更能真正帮用户办事。询问“明天北京天气如何，推荐一家酒店”，它能自主判断是否需要联网搜索，调用工具查询实时信息并给出完整建议。原生支持WebSearch和复杂Function Call，让模型从“聊天机器人”进化为“执行助手”。

在技术规格上，Qwen3.5-Omni支持256K超长上下文与113种语言识别，可处理长达10小时的音频或1小时的视频。相比上一代，模型在长上下文、多语言、音视频理解能力上均有明显提升，视觉和文本能力则与同尺寸的Qwen3.5模型持平。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。