SheepNav
新上线今天91 投票

在 AMD MI300X 上部署 DeepSeek-V4-Flash:一份亲历者记录

为什么是 MI300X?

在 AI 算力持续紧缺的当下,AMD MI300X 以其 192GB HBM3 显存、接近 H100 的 FP8 算力以及仅为后者一半的标价,成为不少推理部署团队眼中的“性价比之选”。但理想很丰满,现实很骨感——软件生态的鸿沟让这颗芯片在实际落地中充满挑战。

硬件亮眼,软件扎心

MI300X 发布于 2023 年底,是 AMD 对标 NVIDIA H100/H200 的产品。它拥有 192GB HBM3,远高于 H100 的 80GB;FP8 算力与 H100 相当,而租赁价格却低得多。然而,当 H100 租赁价格在五个月内上涨 40%、按需容量全面售罄时,MI300X 依然“随租随有”。

原因只有一个:软件

AMD 在 MI350X、MI355X 等新芯片上的软件支持已有改善,但对 MI300X 这一代产品的优化似乎被遗忘了。截至 2026 年 5 月初,vLLM 搭配 DeepSeek-V4-Flash 在 MI300X 上根本无法正常运行——而这个组合本应是推理场景的黄金搭档。

FP8 标准之争的后遗症

问题的根源之一,是 FP8 数据格式的标准分裂

在低精度计算成为趋势后,业界对 FP8 的规范产生了分歧:

  • Graphcore 与 AMD 联合 Qualcomm,在 2022 年提出了一套标准;
  • Arm、Intel 与 NVIDIA 则通过 Open Compute Project 推出了另一套。

两派互不相让,导致不同厂商的硬件对 FP8 的理解和执行存在微妙差异。MI300X 作为 AMD 首批支持 FP8 的加速器,采用的正是前一套标准,而这与主流 AI 框架(如 vLLM)所依赖的 NVIDIA 生态并不兼容。

部署路上的“暗坑”

在尝试让 DeepSeek-V4-Flash 在 MI300X 上跑通的过程中,我们遇到了大量非预期问题

  • ROCm 软件栈对特定算子的支持缺失或行为异常;
  • 显存管理策略与 NVIDIA 生态不同,导致 KV Cache 分配失败;
  • 社区提供的 Docker 镜像和安装脚本往往过时,且缺少针对 MI300X 的详细文档。

每一次看似接近成功,都会被一个新的错误打断。这并非硬件能力不足,而是软件适配的碎片化让本应简单的部署变得异常曲折。

小结:性价比背后的隐形成本

MI300X 的硬件规格令人心动,但当前软件生态的不成熟,使得它更适合愿意投入工程力量进行深度适配的团队。对于追求快速部署、开箱即用的用户而言,NVIDIA 生态仍是更稳妥的选择。

但我们相信,随着 AMD 持续补足软件短板,MI300X 这类“高性价比”芯片的价值终将被释放。届时,今天的这份“踩坑记录”或许会成为一份有意义的参考。

延伸阅读

  1. Amazfit Cheetah 2 Pro 评测:高尔夫球场实测,这款旗舰智能手表值不值?
  2. Claude Opus 4.8 与 4.7 十轮诚实度对决:法律提示词“击穿”了它
  3. Nvidia RTX Spark 笔记本电脑:我最想尝试的四款,包括微软全新 Ultra
查看原文