AMD：已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上，利用 SGLang 彻底改变 AI 开发

文章来源：IT之家 • 2025年1月25日下午9:53 • AI • 阅读 62

AMD 宣布，已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上，该模型经过 SGLang 强化，针对 Al 推理进行了优化。

IT之家查询发现，AMD 早在去年 12 月 26 日就在 Github 上公布了支持 DeepSeek-V3 模型的 SGLang v0.4.1。

AMD 表示， DeepSeek V3 是目前最强的开源 LLM，甚至超过了 GPT-4o。AMD 还透露，SGLang 和 DeepSeek 团队通力合作，使 DeepSeek V3 FP8 从首发当天就能在英伟达和 AMD GPU 上运行。此外，AMD 还感谢了美团搜索与推荐算法平台团队以及 DataCrunch 提供 GPU 资源。

据介绍，DeepSeek-V3 模型是一个强大的混合专家 (MoE) 语言模型，总参数量为 671B，每个 token 激活 37B 参数。

为了实现高效推理和高经济效益的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构。

此外，DeepSeek-V3 开创了一种无辅助损失的负载平衡策略，并设置了多标记预测训练目标以实现更强劲的性能。

DeepSeek-V3 使开发人员能够使用高级模型，利用内存能力同时处理文本和视觉数据，让开发人员可以广泛获取先进功能，并为其提供更多功能。

AMD Instinct GPU 加速器和 DeepSeek-V3

AMD 表示，ROCm 中广泛的 FP8 支持可显著改善运行 AI 模型的过程，尤其是在推理方面。它有助于解决诸如内存瓶颈和与更多读写格式相关的高延迟问题等关键问题，使平台能够在相同的硬件限制下处理更大的模型或批处理，从而带来更高效的训练和推理过程。

此外，FP8 降低精度计算可以减少数据传输和计算中的延迟。AMD ROCm 扩展了其生态系统中对 FP8 的支持，从而能够在各个方面（从框架到库）改善性能和效率。

免责声明：文章内容来自IT之家

本站不对其内容的真实性、完整性、准确性给予任何担保、明示、暗示和承诺，本文仅供读者参考!

数码迷尊重原作者的辛勤劳动并致力于保护原著版权以及相关的知识产权，所转载的文章，其版权归原作者所有。

如本文内容影响到您的合法权益(内容、图片等)，请通过邮箱5937331#qq.com联系我们，我们将第一时间回复处理。

赞 (0)

刘庆峰：科大讯飞将做全栈自主可控的大模型国家队

上一篇 2025年1月25日下午9:53

中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

下一篇 2025年1月25日下午9:53

AI

三星“AI 订阅俱乐部”受热捧，半数高端电视买家选择订阅

2025年3月9日
AI

调查显示 ChatGPT 为全球职场最受欢迎 AI 工具，印度使用率居首

2025年3月9日
AI

健康专家警示：AI 伴侣可补充但不能替代现实社交关系

2025年3月9日
AI

AI 编程助手受投资者热捧，消息称 Cursor 开发商 Anysphere 正以 100 亿美元估值进行融资

2025年3月9日
AI

作家指控 Meta AI 训练侵犯版权，法官允许诉讼继续推进

2025年3月9日
AI

AI 玩手机越玩越 6，西湖大学发布会自我进化的智能体 AppAgentX

2025年3月9日