2025全球开发者先锋大会：AI竞赛加速，数据优化成关键突破口

时间：2025-02-26 05:20

小编：小世评选

2025年2月21日至23日，全球开发者先锋大会在中国上海隆重召开，成为科技界的一大盛事。近年来，人工智能（AI）技术的迅猛发展吸引了全球开发者的关注，而国产AI新星DeepSeek的崛起，正在掀起一阵新的AI热潮。马斯克旗下的xAI发布的Grok 3更是以20万张GPU卡的庞大算力霸占了行业榜单，令业内震惊不已。对此，对手OpenAI也迅速宣布将推出OpenAI-4.5和OpenAI-5。显然，人工智能的竞争正在以加速的方式展开，每一个破局者都在不断寻求突破的机遇。

在“浦江AI生态论坛”上，来自上海人工智能实验室的青年科学家何聪辉就近期AI圈的新模型、开源及未来发展趋势进行了深入交流。他表示，尽管DeepSeek取得了显著的成功，但未来仍将会有新的团队崭露头角。他认为，当前模型架构尚未实现范式级突破，在此条件下，数据优化是最具性价比的进化路径。

在AI发展的道路上，数据被喻为模型训练所需的“粮食”。很多业内人士指出，当前AI大模型训练正面临数据资源的“瓶颈”，比如，过去四年内主流模型的训练语料量已经提高了三个数量级，数据需求呈几何级数增长，预计到2026年和2028年，网络中可用于模型训练的数据将几乎被用尽。在这种情况下，如何突破数据瓶颈，实现模型能力的提升，就成为了急需解决的课题。

在谈及数据的质量问题时，何聪辉提到，很多企业开始在同质化的互联网数据中进行比拼，但如何提升数据质量，仍然是一个亟待解决的问题。中国庞大的人口与多元化的产业虽然沉淀了丰富的私域数据，但真正能够为大模型带来显著性能提升的数据却少之又少。

如何理解何聪辉提到的“高知识密度”数据？他解释道，这类数据的知识含量超出一般水平，通常包含更深刻的学术观点或领域专业知识。以科学研究为例，硕士、博士级别的专业数据，甚至是研究过程中涉及的思考与推理，都是极具价值的。简单除了最终的科研结果，如论文，我们在乎的还是研究过程中各个环节的思考与试错过程。这些高层次的数据会极大地推动模型的学习与提升。

相比于海量的网络数据，这类“高知识密度”数据的获取难度显著增加。国际上，许多大型企业已经开始组建专业团队进行数据标注，甚至采用数据合成技术以扩充数据。何聪辉提到，上海AI实验室正在启动“AI4S攀登者计划”，与高校合作构建高质量的数据，以为未来AI技术的进一步发展铺路。

根据何聪辉的分析，数据的价值在于能够通过对模型的深入理解得到不断挖掘。目前，主流的大语言模型多集中于文本模态，未来则可能在音频、图像及视频等多模态数据融合方面释放更大的潜力。因此，在现阶段模型架构尚无重大突破的背景下，数据的优化依旧是性价比最高的演进路径。

深度剖析竞争对手的成果时，何聪辉提到Grok 3模型的显著算力投入与其有限的效率提升之间的矛盾。这一现象印证了数据质量的重要性，DeepSeek则以更低的成本通过强化学习与数据蒸馏，达到相似的效果。两者之间的技术哲学也显而易见：一种是“大力出奇迹”，另一种则是“四两拨千斤”。从长远来看，拥有更多算力资源的确会在试错与迭代上提供更大的优势。

在谈到与开源项目的关系时，何聪辉指出，开源正在快速重构AI产业生态，并积极改变竞争规则。数据、模型和工具链的开源，推动了AI技术的民主化，使得各方无需重复造轮子，专注于已有成果的二次创新。何聪辉提到，他和团队研发的MinerU智能文档解析工具在短短几个月内就在GitHub上获得了超过2.6万个星标，展现了开源项目在加速数据准备、模型迭代和落地效率方面的巨大作用。

在的日子里，随着DeepSeek继续开源五个代码库，何聪辉表示期待能在数据集构建、处理流程及数据合成等领域吸取更多经验与教训。他相信，开源的透明度将促进AI的安全与可持续发展，为整个行业的未来打下坚实基础。

在2025全球开发者先锋大会的背景下，AI竞赛依旧如火如荼，而数据优化正成为关键的突破口。未来的胜者，可能正是那些能够深刻理解数据价值，并利用其潜力进行创新的团队。

2025全球开发者先锋大会：AI竞赛加速，数据优化成关键突破口

精品推荐

相关文章