阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-06
又涨停了!交易所出手“15倍股”:暂停部分账户交易实测是真的 明志科技起诉大牛股ST云动拖欠货款 被告:扯了很久,对方供货有质量问题 京东将开5家折扣超市 电商火拼“硬折扣” 美国供应管理协会数据显示,7 月美国服务业活动陷入停滞后续反转 英国石油公司宣布全面业务审查,誓言 “做得更好”科技水平又一个里程碑 7月份私募证券基金备案量创年内单月新高 百亿元级量化机构领跑后续会怎么发展 美国供应管理协会数据显示,7 月美国服务业活动陷入停滞反转来了 RIO要“灌醉”年轻人,30元/瓶的12度小酒上市,母公司百润股份去年营利双降官方处理结果 大型科技公司耗电巨大,而美国老化的电网难以应对实垂了 特朗普称财政部长贝森特“不想”担任美联储老大,有四位候选人在列 特斯拉及马斯克因Robotaxi相关不实宣传遭股东起诉 特朗普的铜关税目前已涉及150亿美元产品实时报道 康明斯因发电设备需求激增,季度营收超预期科技水平又一个里程碑 美国众议院老大会向司法部发出传票 要求提供爱泼斯坦案记录 又涨停了!交易所出手“15倍股”:暂停部分账户交易科技水平又一个里程碑 特斯拉在欧洲市场销量持续下滑实测是真的 明志科技起诉大牛股ST云动拖欠货款 被告:扯了很久,对方供货有质量问题 福克斯季度业绩超预期,回购规模增加50亿美元 华为向鸿蒙 HarmonyOS 5.1 版本机型推送系统补丁,新增“升级尝鲜”入口学习了 目前为止,美股二季报表现如何?最新进展 盈新发展:8月4日召开董事会会议记者时时跟进 电动飞行出租车企业Joby拟收购Blade航空出行公司最新进展 透景生命拟3.28亿元分三步收购康录生物82%股份后续来了 任职不足两年 航天智造重组完成后首位董事长陈凡章提前辞职后续会怎么发展 张果彤:黄金中线看空至3140和2960最新进展 伯克希尔跌3.2% 盈利下滑且未进行股票回购,令投资者失望官方通报来了 获利4575万元!参与定增入股两年半后,西藏天路卖出龙国电建2500万股专家已经证实 伯克希尔跌3.2% 盈利下滑且未进行股票回购,令投资者失望专家已经证实 目前为止,美股二季报表现如何?太强大了 千亿重组,大动作!科技水平又一个里程碑 美联储和统计局面临“大换血”风险!美元暴跌只是个开始?学习了 亿纬锂能赴港突围专家已经证实 美联储和统计局面临“大换血”风险!美元暴跌只是个开始?官方已经证实 南方润泽科技数据中心REIT募集资金45亿 8月8日上市后续反转来了 震有科技实控人折价引入致远资本 后者同一模式连续出手专家已经证实 任职不足两年 航天智造重组完成后首位董事长陈凡章提前辞职 农业银行亮了!回调半个多月的银行股反弹,对债券替代性如何? 万科A:深铁集团向公司提供不超过16.81亿元借款 特朗普即将做出两项关键任命,美国经济的可信度岌岌可危最新进展 最新报道 华曙高科8月5日大宗交易成交1031.10万元记者时时跟进 ST逸飞大宗交易成交50.00万股 成交额1384.50万元 上纬新材龙虎榜:营业部净卖出1573.65万元又一个里程碑 银行业“反内卷”持续升级 浙粤等地新规直击返佣抢单乱象记者时时跟进 万兴天幕双端正式上线 AI视频创作迈入普惠时代 专家已经证实 8月投资策略报告|仍有再创新高的可能科技水平又一个里程碑

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章