AMD MI300X 部署 DeepSeek-V4-Flash 实战记录

为什么是 MI300X？

在 AI 算力持续紧缺的当下，AMD MI300X 以其 192GB HBM3 显存、接近 H100 的 FP8 算力以及仅为后者一半的标价，成为不少推理部署团队眼中的“性价比之选”。但理想很丰满，现实很骨感——软件生态的鸿沟让这颗芯片在实际落地中充满挑战。

硬件亮眼，软件扎心

MI300X 发布于 2023 年底，是 AMD 对标 NVIDIA H100/H200 的产品。它拥有 192GB HBM3，远高于 H100 的 80GB；FP8 算力与 H100 相当，而租赁价格却低得多。然而，当 H100 租赁价格在五个月内上涨 40%、按需容量全面售罄时，MI300X 依然“随租随有”。

原因只有一个：软件。

AMD 在 MI350X、MI355X 等新芯片上的软件支持已有改善，但对 MI300X 这一代产品的优化似乎被遗忘了。截至 2026 年 5 月初，vLLM 搭配 DeepSeek-V4-Flash 在 MI300X 上根本无法正常运行——而这个组合本应是推理场景的黄金搭档。

FP8 标准之争的后遗症

问题的根源之一，是 FP8 数据格式的标准分裂。

在低精度计算成为趋势后，业界对 FP8 的规范产生了分歧：

Graphcore 与 AMD 联合 Qualcomm，在 2022 年提出了一套标准；
Arm、Intel 与 NVIDIA 则通过 Open Compute Project 推出了另一套。

两派互不相让，导致不同厂商的硬件对 FP8 的理解和执行存在微妙差异。MI300X 作为 AMD 首批支持 FP8 的加速器，采用的正是前一套标准，而这与主流 AI 框架（如 vLLM）所依赖的 NVIDIA 生态并不兼容。

部署路上的“暗坑”

在尝试让 DeepSeek-V4-Flash 在 MI300X 上跑通的过程中，我们遇到了大量非预期问题：

ROCm 软件栈对特定算子的支持缺失或行为异常；
显存管理策略与 NVIDIA 生态不同，导致 KV Cache 分配失败；
社区提供的 Docker 镜像和安装脚本往往过时，且缺少针对 MI300X 的详细文档。

每一次看似接近成功，都会被一个新的错误打断。这并非硬件能力不足，而是软件适配的碎片化让本应简单的部署变得异常曲折。

小结：性价比背后的隐形成本

MI300X 的硬件规格令人心动，但当前软件生态的不成熟，使得它更适合愿意投入工程力量进行深度适配的团队。对于追求快速部署、开箱即用的用户而言，NVIDIA 生态仍是更稳妥的选择。

但我们相信，随着 AMD 持续补足软件短板，MI300X 这类“高性价比”芯片的价值终将被释放。届时，今天的这份“踩坑记录”或许会成为一份有意义的参考。

在 AMD MI300X 上部署 DeepSeek-V4-Flash：一份亲历者记录

为什么是 MI300X？

硬件亮眼，软件扎心

FP8 标准之争的后遗症

部署路上的“暗坑”

小结：性价比背后的隐形成本

延伸阅读

相关资讯