免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > 中国团队打造DeepSeek-V3:以557万美元击败GPT-4o,性能惊艳全网

中国团队打造DeepSeek-V3:以557万美元击败GPT-4o,性能惊艳全网

时间:2024-12-31 22:00

小编:小世评选

编辑:小桃子 好困

在机器学习领域,一项名为DeepSeek-V3的新模型令全网震惊。这个中国团队的杰作,以仅557万美元的成本,成功训练出能够与市场领先的GPT-4o抗衡的人工智能模型。这一成果不仅展示了深度学习的努力,更点燃了全球对AI发展的热情。今日,我们将深入探讨DeepSeek-V3的崛起及其在技术上的突破。

DeepSeek-V3是一款拥有671B参数的MoE(混合专家)模型。其推理性能以每秒高达60个token的速度运转,让人叹为观止。这相较于其前一代模型DeepSeek-V2的吞吐量提升了三倍,在众多基准测试中表现出色。尤其在数学代码生成任务上,DeepSeek-V3的性能完全碾压了GPT-4o,而在中文处理能力方面,更是超越了许多国外大模型,让国内外专家都深感惊讶。

这款新模型于14.8T高质量的token数据上训练,并且全程开源,模型和论文都可在上获取。值得注意的是,DeepSeek-V3的训练成本极低,仅用2048块GPU,在两个多月内完成了模型训练,相比之下,许多国际巨头所需的训练资源则要高得多。例如,Llama 3 405B模型耗费了3100万GPU小时,而DeepSeek-V3仅用到280万GPU小时,计算量减少约11倍。

这个案例是当前AI技术发展的一个重要里程碑。业界知名学者Karpathy对此倍感惊叹。他指出,若要达到类似的模型能力,往往需要大规模的计算集群,通常需要约1.6万个GPU。DeepSeek-V3的训练效率和成本控制,让大家意识到后续模型开发中如何更好地利用现有资源,避免资源浪费。

受访专家贾扬清提出,当前已正式进入分布式推理的时代,因为单个GPU的显存已难以承载如此庞大的模型。尽管更新大显存机器能够容纳更多参数,但实现性能优化及未来的扩展依然需要依赖分布式推理。贾扬清强调,DeepSeek-V3引入的“redundantexpert”概念,是完美解决推理过程中负载均衡问题的关键。

在基准测试中,DeepSeek-V3在数学领域MATH 500上获得了90.2的高分,显著超过了Claude 3.5 Sonnet和GPT-4o。在AIME 2024测试中,DeepSeek-V3的成绩也有近20分的领先优势。在Codeforces编程竞赛基准上,DeepSeek-V3的得分为51.6,刷新了目前的最高记录,也是同类模型中最强的表现之一。这些优异的成绩,再一次确认了DeepSeek-V3在多项领域性能上的领先地位。

DeepSeek-V3的成功,并非偶然。它通过采用多头潜在注意力(MLA)和DeepSeekMoE模型,结合了有效的训练策划,使得模型在效率与能力上都有显著提升。团队还引入了无辅助损失(auxiliary-loss-free)方法,确保了负载均衡并且最小化了其对模型性能造成的不利影响。同时,通过多token预测训练目标的设计,进一步增强了该模型在评估基准上的表现。

在技术实现方面,DeepSeek-V3采用了FP8混合精度训练,以降低GPU内存使用并加速训练过程。其预训练阶段用时不足两个月,表现相当稳定。完整训练过程中没有出现不可恢复的损失突增现象,这在大型深度学习模型的训练中可谓是非常罕见的。

随着DeepSeek-V3的发布,许多开发者和AI爱好者纷纷前来体验这个开源模型。令人惊讶的是,有开发者利用DeepSeek-V3快速创建了一个小行星游戏,这是在展示模型的高效和强大。网友们对于DeepSeek-V3的性能和低成本训练更是赞不绝口。

DeepSeek-V3的出现,不仅是中国在AI领域的一次重大突破,也是全球人工智能研究的重要里程碑。其极低的训练成本与优秀的性能,让我们对未来的AI发展充满期待。随着更多团队和研究者深入探索这个领域,未来我们将见证更多的技术创新与产业变革。无论是继续提升智能体性能,还是打造更为智能、全面的应用场景,DeepSeek-V3的发售会成为推动AI前行的新动力。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多