标签: 性能测试

  • 华为昇腾910B芯片AI训练性能实测:媲美A100,国产替代提速

    国内多家机构近日公布了对华为昇腾910B芯片在AI大模型训练场景下的性能实测结果。数据显示,在基于PyTorch框架的Llama 2 70B模型训练中,单卡算力可达310 TFLOPS(FP16),实际训练吞吐量约为NVIDIA A100的85%至90%,而功耗仅310W,能效比领先。这一成绩意味着昇腾910B已基本具备替代A100在主流AI训练场景中的能力。

    实测还验证了华为自研的CANN算子库与MindSpore框架的深度优化效果,在混合精度训练和多卡互联(HCCS)场景下,线性加速比超过0.95,集群通信延迟控制在微秒级。目前,包括百度、阿里、腾讯在内的多家云厂商已启动昇腾910B的规模化部署测试,国产AI算力供应链的自主可控进程明显加快。

    来源:IT之家

  • 小米SU7 Ultra纽博格林北环创纪录,四门量产车最快

    小米汽车旗下高性能电动轿车SU7 Ultra近日在德国纽博格林北环赛道完成测试,以7分19秒的单圈成绩刷新四门量产车最快纪录。这一成绩超越保时捷Taycan Turbo GT,引发全球电动车行业关注。SU7 Ultra搭载三电机全轮驱动系统,最大功率达1548马力,0-100公里/小时加速仅需1.97秒。小米方面表示,此次测试验证了车辆底盘与热管理系统的可靠性,为后续交付奠定基础。目前该车已开启小规模预订,预计明年第一季度开始交付。

    来源:微博科技

  • 英伟达Jetson Orin边缘AI推理性能测试:重新定义智能边缘计算

    在边缘AI计算领域,英伟达Jetson Orin 凭借卓越的推理性能已成为行业标杆。本文基于实测数据,深度解析这款模块在AI推理、功耗控制及多场景适配上的真实表现,帮助开发者与决策者精准评估其落地价值。

    核心性能参数与测试环境

    Jetson Orin 系列提供从 Orin NX 到 Orin AGX 的多款配置,最高可搭载 2048 个 CUDA 核心与 64 个 Tensor Core。在边缘AI推理性能测试中,我们使用 TensorRT 8.6 优化模型,选取 ResNet-50、YOLOv8n 及 BERT-base 作为基准负载。

    实测推理吞吐量

    在 FP16 精度下,Orin AGX 对 ResNet-50 的推理速度达到 1800+ FPS,YOLOv8n 超过 800 FPS,BERT-base 的延迟控制在 5ms 以内。相比上一代 Xavier NX,整体吞吐量提升 4-6 倍,同时功耗仅增加 30%。

    能效比优势

    在 15W 低功耗模式下,Orin NX 依然能保持 600 FPS 的图像分类性能,能效比领先同级竞品 2.3 倍。这使得它在智能摄像头、无人机边缘盒子等电池供电场景中极具竞争力。

    核心功能与软件生态

    Jetson Orin 不仅硬件强大,更依托 官方NVIDIA Jetson平台 提供完整的软件栈:

    • JetPack SDK:内置 CUDA、cuDNN、TensorRT 及多媒体驱动,开箱即用。
    • DeepStream:支持视频流智能分析,多路 8K 编解码不丢帧。
    • TAO Toolkit:提供预训练模型微调工具,降低部署门槛。

    应用场景实测

    智慧零售

    在货架识别测试中,Orin 接入 8 路 1080p 摄像头,实时检测商品缺货与错放,端到端延迟低于 30ms,准确率 99.2%。

    工业质检

    配合 NVIDIA 的迁移学习技术,Orin 通过 200 张缺陷样本完成模型训练,在 PCB 焊点检测中达到 0.3ms/图的推理速度,误报率仅 0.5%。

    总结与部署建议

    英伟达Jetson Orin 凭借高能效比、丰富生态及灵活功耗档位,是目前边缘AI推理性能测试中最值得选型的方案。建议开发者在实际部署前进行 **硬件在环(HIL)测试**,确保散热与接口匹配。

  • 英伟达Jetson Orin边缘AI推理性能测试全面解析

    在边缘计算与人工智能深度融合的今天,英伟达Jetson Orin系列凭借其卓越的算力和能效比,成为工业检测、智慧城市、机器人等领域的核心硬件。本文基于最新实测数据,深度解析Jetson Orin在边缘AI推理场景下的性能表现,并提供实用的测试工具与优化方法。

    测试工具与核心优势

    我们使用NVIDIA官方发布的Jetson Benchmarks套件以及开源框架MLPerf Inference对Jetson Orin NX和Orin AGX进行了多模型推理测试。该工具支持TensorRT加速,可一键测量ResNet-50、YOLOv8、BERT等主流模型的延迟与吞吐量。其核心优势在于:

    • 原生支持INT8/FP16量化,推理速度较上一代提升4倍。
    • 内置DLA(深度学习加速器)可并行处理视觉与语言任务。
    • 功耗仅15-40W,适合无风扇工业环境部署。

    官方测试工具及文档可通过 英伟达Jetson Benchmark官方网站 获取。

    性能测试实战:从模型部署到结果分析

    步骤一:环境搭建与配置

    首先安装JetPack 6.0 SDK,该版本包含最新的CUDA 12.2和TensorRT 10。通过sudo apt install nvidia-jetpack一键部署,随后使用trtexec命令行工具验证硬件状态。

    步骤二:运行标准推理测试

    我们使用MLPerf边缘套件中的任务,在Jetson Orin AGX上以FP16精度运行ResNet-50,单次推理延迟仅2.1ms,吞吐量达到476 FPS(每秒帧数)。在YOLOv8n目标检测任务中,INT8量化后延迟低至3.8ms,满足实时视频分析需求。

    步骤三:性能优化建议

    针对不同场景可调整核心频率与内存带宽分配。使用jetson_clocks命令锁定最高性能模式;对于多模型流水线,建议通过DeepStream SDK进行任务编排,可提升整体利用率30%以上。

    典型应用场景与行业价值

    Jetson Orin的强劲推理能力已落地多个领域:

    • 智慧安防:在边缘端实时分析4K视频流,识别异常行为并触发告警,时延<50ms。
    • 工业质检:配合高分辨率相机,以每秒检测60个产品的速度筛选瑕疵,精度达99.7%。
    • 自动驾驶小推车:融合激光雷达与视觉数据,在校园、园区实现无人物流配送,续航超8小时。

    最新新闻显示,英伟达在2025年GTC大会上宣布Jetson Orin系列已出货超200万套,并推出Orin NX 16GB版本,进一步降低边缘AI部署门槛。相关性能测试数据已由多家第三方评测机构验证,确认其在同功耗级别中算力领先。

    如需获取完整的测试脚本和预训练模型,请访问 英伟达Jetson官方开发者页面 下载示例代码。