阿里通义千问大模型升级首次实现全模态理解

作者：

在

阿里巴巴集团旗下阿里云智能今日宣布，其自主研发的通义千问大模型完成重大升级，首次实现文本、图像、音频、视频的全模态理解能力。这是国内大模型在多模态领域的重要突破，意味着用户可以通过混合输入多种信息形式与AI进行更自然的交互。

据官方介绍，此次升级后通义千问能在同一对话中同时理解图片内容和语音指令，例如用户上传一张产品照片并口头询问“这个产品的价格是多少”，模型可准确识别并回答。该能力已率先应用于阿里云的企业级AI解决方案中，帮助电商、教育、医疗等行业的客户提升服务效率。技术团队表示，全模态模型在训练中使用了超过万亿级的多模态数据，并优化了注意力机制以降低计算成本。

业内分析认为，全模态能力将使大模型在复杂场景下的实用性大幅提升，推动AI从单一文本助手向真正的智能助手进化。目前该功能已向企业用户开放API接口，个人用户预计可在下个月更新的通义千问APP中体验。

人工智能多模态大模型升级通义千问阿里云

阿里通义千问大模型升级 首次实现全模态理解

评论

发表回复 取消回复

更多文章

Adobe Firefly矢量图生成与商业版权说明：设计师的安全创作利器

佳能EOS R1体育摄影自动追焦参数深度解析：专业运动拍摄的终极工具

小米SU7 Nappa真皮座椅日常保养与清洁指南

华为问界M9途灵底盘自适应模式：智能驾控新体验深度解析

阿里通义千问大模型升级首次实现全模态理解

发表回复取消回复