标签: MoE架构

  • 国产大模型DeepSeek发布新一代MoE架构,推理成本降低90%

    中国人工智能初创公司DeepSeek今日宣布推出新一代混合专家模型(MoE)架构,在保持千亿参数规模的同时,将推理计算成本降低90%。该架构通过动态路由算法和稀疏激活技术,显著提升模型在复杂推理任务中的效率。据官方测试,在数学竞赛、代码生成等基准上,新模型性能超越同等参数量的GPT-4。这一突破有望加速AI应用在中小企业的普及,推动国产大模型生态的快速发展。

    目前该模型已开放API公测,开发者可访问DeepSeek官方平台申请试用。

  • DeepSeek发布新一代MoE架构模型 推理效率提升5倍

    国内AI公司DeepSeek今日正式发布全新一代混合专家模型(MoE)DeepSeek-V3。该模型在多项基准测试中超越GPT-4o,推理效率较上一代提升5倍,同时训练成本降低40%。DeepSeek-V3采用自适应路由算法,可动态分配计算资源,在数学、代码生成和长文本理解任务上表现突出。目前模型已开源,开发者可通过官方GitHub仓库下载。业内人士认为,这一突破将进一步推动国产大模型在垂直行业的落地应用。

    来源:新浪科技