大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro

ITBEAR科技资讯 2026-03-31

3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。新模型拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别语言和方言数量多达113种,还惊喜地涌现出了音视频Vibe Coding能力,用户对着镜头阐述需求,就能让模型自主生成APP、网页、游戏等复杂产品代码。目前,阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等行业。

Qwen3.5-Omni采用混合注意力MoE架构,在海量文本、视觉以及超过1亿小时的音视频数据上进行了原生多模态预训练,可实现图片、视频、语音、文字等全模态内容的输入与输出。新模型在音视频理解、跨模态推理、Agent方面实现了性能飞跃,在音视频理解、语音识别、多语种翻译、对话等215项第三方性能测试任务中取得SOTA。比如,在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分大幅领先Gemini-3.1 Pro;在检测嘈杂环境抗干扰能力的WenetSpeech测试中,Qwen3.5-Omni错误率远低于Gemini,识别准确率极高;在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。


图说:Qwen3.5-Omni跑分图

Qwen3.5-Omni拥有极强的语言能力,支持113种语言及方言的语音识别和36种语言及方言的语音生成,就连使用人数不足一百万的毛利语和国内的海南方言,也能精准识别。新模型还大幅增强了实时交互体验,能高情商听懂用户对话意图,准确区分有效回应和随口附和,就像和真人聊天一样。同时,模型还可以根据指令自由调节语音、语调,并基于创新的ARIA技术,使生成的语音更自然、更稳定。 在面对类似“今天的天气怎样”的实时提问时,模型还能自主判断并调用工具,确保回复内容准确且时效性强。

基于一系列技术创新,Qwen3.5-Omni将Vibe Coding推入下一阶段。与纯文本或图片驱动的Vibe Coding不同,千问可以实现音视频编程:打开摄像头,用户对着草图口述需求,哪怕是包括复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现“动动嘴即可编程”。这一能力并非刻意设计,而是模型在原生多模态能力持续扩展过程中自然涌现出的结果。

Qwen3.5-Omni顶尖的全模态能力,还能为专业领域带来超级生产力。新模型可对画面主体、人物关系、对话逻辑、乃至人物情绪起伏进行极细的拆解,并自动完成视频章节切片与时间戳标注,支持超过10小时的音频输入,将繁琐的视频后期梳理工作缩短至秒级,大幅降低了企业的内容管理成本,在视频创作、内容审核等领域具有极高的落地价值。

目前,普通用户也可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低。据了解,千问稳居中国企业级大模型调用市场第一,服务涵盖互联网、金融、消费电子及汽车等重点行业超100万家客户。

附:


图说:Qwen3.5-Omni跑分图

豆包内测已接入抖音电商,无需跳转即可下单
3月30日,据《科创板日报》消息,字节跳动旗下AI助手豆包已接入抖音电商,支持在豆包APP内直接下单并完成支付,无需跳转抖音,该功能目前处于内测阶段。据悉,豆包APP于3月19日更新隐私政策,明确“购物功能”由合作电商平台上海格物致品网络科技有限公司及其

2026-03-31

高德全量开源ABot-M0:全球首个统一架构的具身操作基座模型
近日,高德宣布正式全量开源ABot-M0——全球首个基于统一架构的机器人具身操作基座模型,可实现一个“通用大脑”适配多种形态的具身机器人。

2026-03-31

蚂蚁灵波开源2.71T深度数据集,填补真实场景空间感知数据空白
蚂蚁灵波开源2.7T深度数据集,200万对真实样本,覆盖6款相机3 月 31 日,蚂蚁灵波科技正式开源大规模 RGB-D 深度数据集 LingBot-Depth-Dataset。该数据集包含 300 万对高质量样本,其中 200 万对来自真实场景采集、100 万对由渲染生成,总规模达 2.71TB,覆盖

2026-03-31

神州数码2025年度财报:AI转型提速,营收再创新高
3月30日晚间,神州数码(000034.SZ)发布2025年度全年业绩。报告期内,神州数码紧抓AI技术产业落地加速的新机遇,坚定聚焦AI for Process,全年营收实现1437.5亿元,逆势增长12.2%,经营规模再创新高。其中,AI多元布局加速落地,AI相关业务收入实现330.3亿元

2026-03-30

乐聚建成国内首条年产能万台级人形机器人产线
3月29日,国内首条年产能万台级的人形机器人自动化产线在广东正式投入使用,人形机器人规模化量产能力取得重大突破。该产线年产能突破一万台,可实现每30分钟下线一台人形机器人,高效满足市场规模化交付需求。产线上24道精密组装工序均实现数字化,效率较传

2026-03-30

学生高端读写大路灯哪个好?独语vsVIIS睿光vs米家护眼实测
科技不冗余,独语C2打造学生专属护眼体验学生高端读写大路灯哪个好?高端学生读写大路灯,不应只靠科技噱头和品牌溢价,更要靠硬核参数和实用设计说话。市面上不少高端机型,堆砌冗余功能、价格虚高,难以真正适配学生读写需求,反而增加使用成本。学生高端读

2026-03-30

百度沈抖谈具身智能算力 百度智能云已跑出绝对领先优势
出品 / 网界 作者 / 泓澈3月25日,博鳌亚洲论坛“人形机器人的进阶与飞跃”分论坛上,百度集团执行副总裁、百度智能云事业群总裁沈抖的发言,直接戳中了具身智能产业的核心。他明确提出,具身智能没有“ChatGPT时刻”,产业爆发是渐进过程,同时抛出一组关键

2026-03-30