英伟达于今日发布全新RTX 5090旗舰显卡,基于Blackwell架构,集成超过2000亿晶体管,AI算力达到2000 TOPS,较前代RTX 4090实现翻倍提升。该显卡支持原生FP4精度,大幅降低大模型推理成本,同时引入双机互联技术,为数据中心和科研机构提供更高效的加速方案。国内多家头部AI企业已宣布优先采购,预计三季度开始供货。
来源:英伟达官方新闻
英伟达于今日发布全新RTX 5090旗舰显卡,基于Blackwell架构,集成超过2000亿晶体管,AI算力达到2000 TOPS,较前代RTX 4090实现翻倍提升。该显卡支持原生FP4精度,大幅降低大模型推理成本,同时引入双机互联技术,为数据中心和科研机构提供更高效的加速方案。国内多家头部AI企业已宣布优先采购,预计三季度开始供货。
来源:英伟达官方新闻
英伟达最新财报显示,营收和利润大幅超出市场预期。受益于全球人工智能算力需求井喷,数据中心业务同比增长超过200%,成为业绩最大驱动力。财报发布后,公司股价盘后大涨逾8%,市值重回3万亿美元上方。多家机构上调目标价,认为AI芯片需求远未见顶,英伟达作为行业龙头将持续受益于大模型训练与推理的扩张。市场分析指出,科技巨头加速自研芯片对英伟达形成一定竞争,但短期难以撼动其生态优势。
来源:澎湃新闻
据最新行业动态,随着人工智能应用全面爆发,全球对高性能AI芯片的需求持续攀升。台积电近日宣布,将大幅扩大其3纳米制程产能,以满足来自英伟达、AMD等客户的订单。这一举措预计将推动2025年半导体市场增长超过20%。分析师指出,AI芯片的供不应求已成为制约大模型发展的关键瓶颈,台积电的扩产计划有望缓解产业链压力,并为智能手机、自动驾驶等领域带来新的性能突破。
来源:新浪科技
近日,国内多家头部AI企业公布最新测试数据,显示华为昇腾910B芯片在大模型训练场景下的性能已达到国际主流产品的九成以上,尤其在百亿参数模型训练中,单卡算力效率提升显著。该芯片采用自研达芬奇架构,支持全栈国产化软件生态,有效降低了企业对英伟达GPU的依赖。业内人士称,随着昇腾910B在千卡集群中的稳定表现,国产大模型训练已进入实用化阶段,未来将加速推动AI产业自主可控发展。
在AI芯片竞争日益激烈的今天,华为昇腾系列凭借自研的CANN(异构计算架构)为开发者提供了强大的算子开发能力。掌握CANN算子开发实战技巧,不仅能大幅提升模型推理效率,还能充分利用昇腾硬件的算力潜能。本文结合最新技术动态,为你深度解析CANN算子开发的核心要点。
CANN作为华为昇腾AI处理器的软件栈核心,支持开发者自定义算子以适配特殊网络结构。其优势在于:
欲了解最新版本特性与下载SDK,请访问华为昇腾CANN官方网站。
建议使用华为官方提供的MindStudio开发工具,集成代码编辑、编译调试与分析功能。安装时注意匹配昇腾芯片型号(如Ascend310/910),并配置环境变量以调用CANN运行时库。
采用TBE领域特定语言(DSL)编写算子时,需遵循“数据流-计算流-控制流”分离原则。例如,在实现卷积算子时,优先使用高阶API如te.lang.cce.conv而非底层指令,避免手动管理缓冲区。
ND格式转换功能,将输入张量转为NCHW或NC1HWC0等昇腾高效格式。te.lang.cce.auto_dynamic动态Shape能力,将多个小算子合并为单核指令,减少数据搬运。当前,CANN算子已被广泛应用于智慧城市、自动驾驶、工业质检等场景。例如,某安防企业通过自定义CANN算子将人脸识别延迟从15ms降至5ms。随着昇腾910B等新硬件发布,CANN将进一步支持稀疏计算与混合精度训练,推动AI推理效率再上新台阶。
建议开发者关注华为昇腾社区举办的“算子开发训练营”,系统学习实战案例。总之,掌握CANN算子开发技巧,就是握住AI芯片国产化浪潮的核心钥匙。
据行业最新消息,三星电子宣布其第五代高带宽内存HBM3E已正式通过英伟达认证,将在下一代AI加速卡中投入使用。该产品基于1b制程,单颗带宽高达1.2TB/s,相比SK海力士上一代HBM3的819GB/s提升近50%,功耗降低约10%。三星还引入先进封装技术,在同样功耗下可实现更高数据吞吐量。
不过,SK海力士凭借更早的量产节奏和客户验证,目前仍是英伟达最主要HBM3E供应商。业内分析指出,三星此次认证虽有助于缩小差距,但年内HBM3E市场仍由SK海力士主导。两家韩系存储巨头的竞争正从带宽参数转向实际出货能力和良率控制。
来源:IT之家
近日,第三方权威评测机构公布了一项针对国产AI芯片的基准测试结果,华为昇腾910B芯片在多项关键算力指标上表现强劲,部分场景下性能超越英伟达A100。测试涵盖深度学习训练与推理任务,昇腾910B在大模型训练中展现出极高能效比,浮点运算能力接近国际顶尖水平。业内专家指出,这一突破标志着国产AI芯片已具备与国际巨头同台竞技的实力,对国内人工智能产业自主可控意义重大。更多细节可查看观察者网完整报道。
在人工智能推理加速领域,Groq 凭借其自研的 LPU(Language Processing Unit)架构,重新定义了超低延迟推理的行业标准。与传统 GPU 不同,LPU 采用张量流处理器架构,专为大语言模型(LLM)推理任务设计,能够在毫秒级内完成复杂计算,成为实时 AI 应用的理想选择。您可以通过 官方网站 了解更多技术细节与产品信息。
Groq LPU 的核心优势在于其确定性计算架构。与 GPU 依赖并行线程和缓存层次不同,LPU 通过精确指令调度消除内存瓶颈,实现单次推理延迟低至 0.5 毫秒以下。这使其在以下方面表现突出:
在金融、医疗等行业的即时客服中,Groq LPU 支持流式文本生成,用户提问后可在极短时间内获得连贯回答,显著提升交互体验。例如,银行在线客服系统利用 LPU 实现每秒处理超过 2000 次查询,且延迟低于 10 毫秒。
对于社交媒体平台,LPU 能够实时分析文本、图像甚至视频中的敏感内容。其低延迟特性使得在用户发布内容的瞬间即可完成违规检测,有效防止有害信息传播。
在集成开发环境(IDE)中,LPU 可为代码补全、错误检测等任务提供亚秒级响应。开发者使用 GitHub Copilot 等工具时,Groq 后端可将生成速度提升至每 50 毫秒输出一行代码,极大提高开发效率。
开发者可通过 Groq Cloud 平台快速接入 LPU 算力。只需注册账户、获取 API 密钥,即可通过标准 RESTful 接口调用推理服务。Groq 提供预置的 Llama、Mistral 等主流模型,也支持用户上传自定义模型。以下为基本使用步骤:
Groq LPU 还提供多种示例代码和文档,帮助开发者快速集成到现有系统中。随着边缘计算和实时 AI 需求的增长,LPU 正成为推动行业创新的关键基础设施。
英伟达在近日举办的年度技术大会上正式发布了新一代AI加速芯片Blackwell Ultra,该芯片专为大规模语言模型和生成式AI训练设计,性能较上一代Hopper提升四倍。英伟达CEO黄仁勋表示,Blackwell Ultra采用全新的架构和先进封装工艺,单芯片集成超过2000亿个晶体管,能效比大幅提升,将推动人工智能行业进入新的发展阶段。该芯片预计于今年第三季度量产,已吸引多家云计算巨头提前下单。
行业分析指出,Blackwell Ultra的发布将进一步巩固英伟达在AI芯片市场的领导地位,同时也将加速全球AI基础设施的升级换代。随着大模型训练成本下降,更多中小企业有望进入AI应用领域。
近日,国内半导体企业「芯来科技」正式发布一款基于RISC-V架构的高性能AI推理芯片,该芯片采用28nm工艺,专为边缘侧嵌入式场景设计。值得关注的是,其官方SDK已原生支持Rust语言,开发者可直接使用Rust编写安全、高效的嵌入式程序。这一动作标志着RISC-V与Rust两大开源生态在工业级应用中的深度融合迈出关键一步。
该芯片集成4个RISC-V RV64GC核心,主频最高1.2GHz,并内置神经网络加速单元,算力可达4TOPS。在功耗控制方面,典型场景下仅为2.5W,非常适合智能家居、工业传感器和机器人等低功耗设备。
传统嵌入式开发常使用C/C++,但内存安全问题频发。Rust的所有权模型可在编译期消除空指针和数据竞争,极大提升系统稳定性。此次官方工具链集成 Rust嵌入式工作组 的标准化工具,开发者只需一条命令即可搭建交叉编译环境。
开发者可访问 RISC-V国际基金会官方网站 获取基础规范,并下载芯来科技提供的Rust Target配置。使用 rustup target add riscv64gc-unknown-none-elf 添加目标,再通过Cargo新建项目即可开始编译。社区已提供示例仓库,涵盖GPIO、UART和SPI等外设驱动。
业内分析认为,RISC-V的开放指令集与Rust的内存安全特性形成天然互补,这一组合正在成为IoT和边缘计算领域的主流选择。