阿里千问发布Qwen3.5-Omni:全模态大模型自然涌现音视频编程能力

2026-03-31 15:31:51   |   弘乐   |   1004

3月30日晚,阿里千问正式发布全模态大模型Qwen3.5-Omni。这款模型能够无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频描述生成,在215项评测中取得SOTA成绩,涵盖音频理解、推理、对话、翻译等多个方向,全面超越Gemini3.1-Pro。

最令人惊喜的是,Qwen3.5-Omni未经专门训练,便自然涌现出了Audio-Visual Vibe Coding能力。上传一段视频,它能生成细粒度、结构化、带时间戳的精确描述:画面中的人物、对话内容、背景音乐变化的时间点、镜头切换次数、每一帧发生的事件……甚至还能判断视频是否包含敏感内容,将长视频转化为可搜索的结构化笔记。更令人惊叹的是,它能根据音视频指令直接生成可运行的代码或前端原型,让创意验证从“看”到“做”只需一步。

在实时对话体验上,Qwen3.5-Omni向真人交互迈出了一大步。它懂得倾听的分寸——咳嗽声或随口附和不会让它误判而停下来,但用户的真正插话它能瞬间接住。用户还可以像指挥真人一样,用“小声点”“用开心的语气”等指令自由控制声音的大小、语速与情绪。配合ARIA技术,语音输出的稳定性和自然度也进一步改善。

音色克隆功能则为个性化交互打开了新空间。用户只需上传一段录音,就能定制专属的AI助手音色,克隆后的声音自然度高、稳定性强,支持多种语言生成。每个人都可以打造一个“数字分身”式助手,用自己的声音去沟通、去陪伴。

Qwen3.5-Omni不仅擅长聊天,更能真正帮用户办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议。原生支持WebSearch和复杂Function Call,让模型从“聊天机器人”进化为“执行助手”。

在技术规格上,Qwen3.5-Omni支持256K超长上下文与113种语言识别,可处理长达10小时的音频或1小时的视频。相比上一代,模型在长上下文、多语言、音视频理解能力上均有明显提升,视觉和文本能力则与同尺寸的Qwen3.5模型持平。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

阿里千问发布Qwen3.5-Omni:全模态大模型自然涌现音视频编程能力

2026-03-31 15:31:51 浏览量: 1004 作者: 弘乐

3月30日晚,阿里千问正式发布全模态大模型Qwen3.5-Omni。这款模型能够无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频描述生成,在215项评测中取得SOTA成绩,涵盖音频理解、推理、对话、翻译等多个方向,全面超越Gemini3.1-Pro。

最令人惊喜的是,Qwen3.5-Omni未经专门训练,便自然涌现出了Audio-Visual Vibe Coding能力。上传一段视频,它能生成细粒度、结构化、带时间戳的精确描述:画面中的人物、对话内容、背景音乐变化的时间点、镜头切换次数、每一帧发生的事件……甚至还能判断视频是否包含敏感内容,将长视频转化为可搜索的结构化笔记。更令人惊叹的是,它能根据音视频指令直接生成可运行的代码或前端原型,让创意验证从“看”到“做”只需一步。

在实时对话体验上,Qwen3.5-Omni向真人交互迈出了一大步。它懂得倾听的分寸——咳嗽声或随口附和不会让它误判而停下来,但用户的真正插话它能瞬间接住。用户还可以像指挥真人一样,用“小声点”“用开心的语气”等指令自由控制声音的大小、语速与情绪。配合ARIA技术,语音输出的稳定性和自然度也进一步改善。

音色克隆功能则为个性化交互打开了新空间。用户只需上传一段录音,就能定制专属的AI助手音色,克隆后的声音自然度高、稳定性强,支持多种语言生成。每个人都可以打造一个“数字分身”式助手,用自己的声音去沟通、去陪伴。

Qwen3.5-Omni不仅擅长聊天,更能真正帮用户办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议。原生支持WebSearch和复杂Function Call,让模型从“聊天机器人”进化为“执行助手”。

在技术规格上,Qwen3.5-Omni支持256K超长上下文与113种语言识别,可处理长达10小时的音频或1小时的视频。相比上一代,模型在长上下文、多语言、音视频理解能力上均有明显提升,视觉和文本能力则与同尺寸的Qwen3.5模型持平。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号