找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 18|回复: 3

[数码资讯] 阿里千问发布全模态大模型 Qwen3.5-Omni

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:763
发表于 2026-3-31 08:30 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生成;

215 项 SOTA 霸榜,在音频及音视频分析、推理、对话、翻译等任务超过 Gemini3.1-Pro;

自然涌现的 Audio-Visual Vibe Coding 能力;

支持语义打断、音色克隆及语音控制,让对话体验更自然;

支持 256K 超长上下文与 113 种语言识别,可处理 10 小时音频或 1 小时视频。

原生支持 WebSearch 和复杂 Function Call,不仅能聊天,更能帮你做事。

视频创作与剪辑

上传一段视频,Qwen3.5-Omni-Plus 能够遵循指令生成细粒度,结构化,带时间戳的准确 Caption:画面里是谁、说了什么话、背景音乐从哪一秒开始变化、镜头切了几次、每一帧发生了什么...... 还能帮你判断这段视频有没有敏感内容,将长视频变成可搜索的结构化笔记。

根据音视频指令,生成网页内容

根据你的要求,Qwen3.5-Omni 能直接生成可运行的代码。这也是本次我们最惊喜的发现:未进行专门训练,模型自然涌现出了 Vibe Coding 能力。它可以根据画面逻辑生成 Python 代码或前端原型…… 让创意验证从“看”到“做”只需一步。

更像真人的实时对话

和 Qwen3.5-Omni 聊天,更像是在跟真人交流。它懂得倾听的分寸:咳嗽声或随口附和不会让它误停下来,但你的真正插话它能瞬间接住。你还能指令它“小声点”、“用开心的语气”,像人一样自由控制声音的大小、语速与情绪,让对话体验更自然。

专属音色克隆

上传一段你的录音,就能定制专属的 AI Assistant 音色。克隆后的声音自然度高、稳定性强,支持多种语言生成。你可以打造一个“数字分身”式助手,让它用你的声音去沟通、去陪伴,让交互更具个性化。

智能任务执行

不止是聊天,Qwen3.5-Omni 还能帮你办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议…… 原生支持 WebSearch 和复杂工具调用,让模型真正成为你的执行助手。

相比上一代,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。



Qwen3.5-Omni-Plus 在音频 / 音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。

其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。



▲ Audio-Visual(音视频)


▲ Audio(音频理解)
  • 打卡等级:已臻大成
  • 打卡总天数:461
发表于 2026-3-31 08:32 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:463
发表于 2026-3-31 10:07 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:765
发表于 2026-3-31 11:06 | 显示全部楼层
看看新闻,感谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-3-31 13:07 , Processed in 0.128891 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表