在今日凌晨的 AMD Advancing AI 2025 活动中,AMD 正式推出其下一代开源软件栈技术 ROCm 7,进一步加速 AI 与开发者生产力。ROCm 7 是 AMD 在 AI 计算领域的重要更新,重点关注推理性能的提升,并为开发者提供了更多高级功能。
ROCm 7 的主要亮点包括:
- 最新算法与模型支持:优化了 vLLM v1、llm-d、SGLang 等框架,提供更高效的 AI 计算能力。
- 高级数据类型支持:新增 FP6 和 FP4 支持,并完善对 FP8 和混合精度的兼容性。
- 性能大幅提升:相较于 ROCm 6,ROCm 7 在推理任务中表现突出,Llama 3.1 70B 性能提升 3.2 倍,Qwen2-72B 提升 3.4 倍,DeepSeek R1 更是提升了 3.8 倍。
- 企业级功能增强:包括集群管理、MoE(混合专家模型)支持,以及基于 Python 的内核编写优化。
AMD 表示,ROCm 7 的推出将显著提升 AI 工作负载的效率,特别是在大规模模型推理场景下。这一更新不仅适用于 AMD 最新的 MI350 系列 GPU,还能为开发者提供更灵活的编程环境。
此外,AMD 还强调了开源生态的重要性,希望通过 ROCm 7 进一步推动 AI 技术的普及和创新。未来,AMD 计划继续优化 ROCm 软件栈,以支持更复杂的 AI 应用场景。