Friday, October 17, 2025

如何看待AMD与OPENAI最近的合作

我们可以从三个层面来解读这个逻辑:


🧠 一、从 LLM(大语言模型)发展阶段来看

当前 LLM(Large Language Model)正进入 从“训练时代”转向“推理时代” 的阶段。

  • 训练(training) 阶段的算力需求极度集中在高端 GPU(如 Nvidia H100 / B200),关键指标是 FP8、FP16 性能与带宽。

  • 推理(inference) 阶段的算力更注重 性价比、功耗、内存容量与批处理效率,成本压力极高。

  • 随着模型架构趋稳(例如 GPT-4、Claude 3、Gemini 1.5),模型训练的频次下降,推理成本成为瓶颈

👉 因此,OpenAI 现在的首要问题不是“有没有最强 GPU”,而是“能不能让每一次推理更便宜”。
这时,AMD 的 Instinct 系列(MI300/MI450)在每瓦性能、推理效率、价格灵活性上具备竞争力,恰好契合了 OpenAI 的战略。


💰 二、从经济与供应链角度看

Nvidia 的芯片虽然性能领先,但:

  • 价格极高(H100 单卡价格约 3–4 万美元以上;GB200 模块更昂贵);

  • 供货紧张(Meta、Microsoft、Amazon、xAI、Anthropic 等巨头抢购);

  • 生态锁定强(CUDA 软件栈绑定,使迁移成本高)。

而 AMD 的策略正好反过来:

项目 Nvidia AMD
架构 CUDA(封闭生态) ROCm(开源生态)
性能 领先 10–20%(训练) 稍弱,但推理效率接近
价格 明显更低
可得性 紧缺 可大量供应
市场策略 高利润垄断 积极渗透、合作绑定

所以 OpenAI 的逻辑大致是:

“未来几年,我的推理算力要指数级增长,而不能被 Nvidia 的价格和供货掐住喉咙。”

与 AMD 签署 6 吉瓦 GPU 部署计划(尤其锁定未来的 MI450 / MI500 代产品),实际上就是算力多元化 + 成本锁定 + 供应稳定性保障的组合策略。

AMD 则乐于以 低价 + 股权激励 + 开放合作 换取高曝光度与生态地位。


🧩 三、从技术生态角度看

过去 OpenAI 的所有大模型训练都基于 Nvidia CUDA + NCCL 框架。但在推理端,模型已经高度抽象化(如通过 Triton、ONNX、vLLM、TensorRT 等接口)。

这意味着:

“只要推理端软件栈兼容 FP16/BF16/INT8 等主流精度标准,迁移到 AMD 只需较小的工程适配成本。”

AMD 的 ROCm 6.x 版本也已经在 PyTorch、vLLM、Transformers 等主流框架中获得正式支持,性能已能覆盖多数推理场景。

所以,从系统层面看,OpenAI 采用部分 AMD GPU 来承担 中等延迟容忍的推理任务(如 ChatGPT 免费层、API 后端、Embedding、语音模型)是完全合理的技术路径。


⚖️ 四、总结判断

简而言之:

角度 OpenAI 的动机 AMD 的动机
经济 降低推理成本,削弱 Nvidia 议价权 借助 OpenAI 打入主流 AI 市场
供应链 保证供货连续性,避免芯片短缺 销售大单、扩大产能利用率
生态战略 促进多厂商架构兼容 打造 ROCm 生态,抗衡 CUDA
技术层面 在推理层使用异构架构分担任务 展示高性价比 GPU 的竞争力

若未来模型增长趋缓、推理需求稳定,那么GPU 成本控制将成为 LLM 公司竞争的核心指标。
这时,AMD 就可能成为 OpenAI 的“节流阀”与“平衡器”——不是取代 Nvidia,而是迫使 Nvidia 降价并开放更多供应配额


如果你想,我可以帮你画一张简单的「OpenAI GPU 策略演化图」,展示从 2022 年到现在,它如何从“全 Nvidia”过渡到“多架构并行(Nvidia + AMD + 自研 ASIC)”。是否要我画?

No comments:

Post a Comment

Note: Only a member of this blog may post a comment.

举个例子,如何用逆向思维, 递归树的方法进行目标管理与任务规划?

🎯 示例场景:一年内写一本书 1. 逆向思维:从终点往回推 目标:一年后出版一本书 逆向思维:不是问“我现在该做什么?”,而是问“要出版一本书,前一步必须完成什么?” 出版 → 完成定稿 完成定稿 → 完成所有章节初稿 完成初稿 → 每月完成若干章节 每月完成...