AMD发布DeepSeek-V3模型，超越GPT-4o，提升AI推理性能

时间：2025-01-31 09:10

小编：小世评选

在人工智能领域，推理性能的提升始终是技术发展的焦点之一。1月25日，AMD便在这一趋势中再下一城，宣布其新推出的DeepSeek-V3模型已经成功集成到Instinct MI300X GPU上。此模型是基于SGLang进行强化优化，专门针对AI推理进行设计，旨在超越现有的主流语言模型，包括备受瞩目的GPT-4o。

随着AI技术的广泛应用，性能强劲的模型成为了研究者和开发者争相追逐的“宝藏”。AMD深知这一市场需求，因此早在去年12月26日，便在Github上发布了支持DeepSeek-V3模型的SGLang v0.4.1。这一举措不仅为开发者提供了更多选择，也显示了AMD在开源领域的决心。

根据AMD的介绍，DeepSeek-V3被誉为“目前最强的开源大型语言模型”，其参数量达到671亿，意味着每个token可以激活高达37亿的参数。这一庞大的参数结构使得DeepSeek-V3在处理文本和视觉数据时表现出了极大的灵活性与精准度，这对于需要高效、准确推理的应用场景尤为重要。

在技术架构上，DeepSeek-V3引入了多头潜在注意力（MLA）和DeepSeekMoE（混合专家）机制。这种设计让模型可以在多个独立的专家之间动态选择，使得推理过程更加高效，并且能够适应不同数据的特性。DeepSeek-V3创立了一种无辅助损失的负载平衡策略，这使得在不同任务间进行切换时，模型能够保持优化的性能状态，避免因负载不均而导致的效率降低。

DeepSeek-V3还设置了多标记预测训练目标，进一步提升了模型的表现。这种训练目标有助于开发者在面对复杂的AI任务时，能够得到更为准确且具有更高意义的结果。同时，DeepSeek-V3与传统模型相比，支持同时处理文本和视觉数据，这意味着开发者今后可以在一个上实现更复杂的多模态任务，发挥出更好的创意空间。

值得一提的是，AMD在提升AI推理性能方面也借助了ROCm框架中广泛的FP8支持。FP8（浮点8）是AMD为提升计算效率而提出的一种低精度计算方法，能够大幅降低数据传输及计算中的延迟。这一方法解决了多年来AI模型在推理阶段普遍面临的内存瓶颈和数据读写延迟问题。FP8技术使得在相同的硬件条件下，模型的处理能力大幅增强，尤其在训练更大规模的模型或进行更大批量数据的推理时，更能发挥出FP8的优势。

AMD表示，ROCm的FP8支持已经扩展到其生态系统的方方面面，从框架到库均能改善整体的性能和效率。这不仅提升了DeepSeek-V3模型的推理速度，也为开发者在实际应用中带来了契机，驾驭更多的AI应用场景。

，AMD对于多个合作团队表示感谢，包括美团搜索与推荐算法团队以及DataCrunch提供的GPU资源。他们的支持使得DeepSeek-V3的开发和测试得以顺利进行，也为后续部署提供了必要的技术保障。

总体而言，随着DeepSeek-V3模型的发布，AMD在AI推理领域迈出了重要的一步。此模型的推出再次证明了AMD在高性能计算领域的领导地位与技术实力，为未来的AI发展注入了新的动力。无论是研究人员、开发者，还是普通用户，DeepSeek-V3都将以其卓越的性能与广泛的适用性，成为他们探索AI新领域的得力助手。

AMD发布DeepSeek-V3模型，超越GPT-4o，提升AI推理性能

精品推荐

相关文章