国内多家机构近日公布了对华为昇腾910B芯片在AI大模型训练场景下的性能实测结果。数据显示,在基于PyTorch框架的Llama 2 70B模型训练中,单卡算力可达310 TFLOPS(FP16),实际训练吞吐量约为NVIDIA A100的85%至90%,而功耗仅310W,能效比领先。这一成绩意味着昇腾910B已基本具备替代A100在主流AI训练场景中的能力。
实测还验证了华为自研的CANN算子库与MindSpore框架的深度优化效果,在混合精度训练和多卡互联(HCCS)场景下,线性加速比超过0.95,集群通信延迟控制在微秒级。目前,包括百度、阿里、腾讯在内的多家云厂商已启动昇腾910B的规模化部署测试,国产AI算力供应链的自主可控进程明显加快。
来源:IT之家
发表回复