DeepSeek R1 推理性能提升 3.8 倍，AMD 发布下一代开源软件栈技术 ROCm 7

2025年6月13日 02:41

来源：IT之家

作者：汪淼

ROCm 7AMD软件AI推理

AMD 发布 ROCm 7 开源软件栈，AI 推理性能最高提升 3.8 倍，支持 FP6/FP4 等新数据类型，优化开发者体验。

新闻简报

在今日凌晨的 AMD Advancing AI 2025 活动中，AMD 正式推出其下一代开源软件栈技术 ROCm 7，进一步加速 AI 与开发者生产力。ROCm 7 是 AMD 在 AI 计算领域的重要更新，重点关注推理性能的提升，并为开发者提供了更多高级功能。

ROCm 7 的主要亮点包括：

最新算法与模型支持：优化了 vLLM v1、llm-d、SGLang 等框架，提供更高效的 AI 计算能力。
高级数据类型支持：新增 FP6 和 FP4 支持，并完善对 FP8 和混合精度的兼容性。
性能大幅提升：相较于 ROCm 6，ROCm 7 在推理任务中表现突出，Llama 3.1 70B 性能提升 3.2 倍，Qwen2-72B 提升 3.4 倍，DeepSeek R1 更是提升了 3.8 倍。
企业级功能增强：包括集群管理、MoE（混合专家模型）支持，以及基于 Python 的内核编写优化。

AMD 表示，ROCm 7 的推出将显著提升 AI 工作负载的效率，特别是在大规模模型推理场景下。这一更新不仅适用于 AMD 最新的 MI350 系列 GPU，还能为开发者提供更灵活的编程环境。

此外，AMD 还强调了开源生态的重要性，希望通过 ROCm 7 进一步推动 AI 技术的普及和创新。未来，AMD 计划继续优化 ROCm 软件栈，以支持更复杂的 AI 应用场景。