阿里通义千问大模型升级 首次实现全模态理解

作者:

阿里巴巴集团旗下阿里云智能今日宣布,其自主研发的通义千问大模型完成重大升级,首次实现文本、图像、音频、视频的全模态理解能力。这是国内大模型在多模态领域的重要突破,意味着用户可以通过混合输入多种信息形式与AI进行更自然的交互。

据官方介绍,此次升级后通义千问能在同一对话中同时理解图片内容和语音指令,例如用户上传一张产品照片并口头询问“这个产品的价格是多少”,模型可准确识别并回答。该能力已率先应用于阿里云的企业级AI解决方案中,帮助电商、教育、医疗等行业的客户提升服务效率。技术团队表示,全模态模型在训练中使用了超过万亿级的多模态数据,并优化了注意力机制以降低计算成本。

业内分析认为,全模态能力将使大模型在复杂场景下的实用性大幅提升,推动AI从单一文本助手向真正的智能助手进化。目前该功能已向企业用户开放API接口,个人用户预计可在下个月更新的通义千问APP中体验。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注