2025全球开发者先锋大会:AI竞赛加速,数据优化成关键突破口
时间:2025-02-26 05:20
小编:小世评选
2025年2月21日至23日,全球开发者先锋大会在中国上海隆重召开,成为科技界的一大盛事。近年来,人工智能(AI)技术的迅猛发展吸引了全球开发者的关注,而国产AI新星DeepSeek的崛起,正在掀起一阵新的AI热潮。马斯克旗下的xAI发布的Grok 3更是以20万张GPU卡的庞大算力霸占了行业榜单,令业内震惊不已。对此,对手OpenAI也迅速宣布将推出OpenAI-4.5和OpenAI-5。显然,人工智能的竞争正在以加速的方式展开,每一个破局者都在不断寻求突破的机遇。
在“浦江AI生态论坛”上,来自上海人工智能实验室的青年科学家何聪辉就近期AI圈的新模型、开源及未来发展趋势进行了深入交流。他表示,尽管DeepSeek取得了显著的成功,但未来仍将会有新的团队崭露头角。他认为,当前模型架构尚未实现范式级突破,在此条件下,数据优化是最具性价比的进化路径。
在AI发展的道路上,数据被喻为模型训练所需的“粮食”。很多业内人士指出,当前AI大模型训练正面临数据资源的“瓶颈”,比如,过去四年内主流模型的训练语料量已经提高了三个数量级,数据需求呈几何级数增长,预计到2026年和2028年,网络中可用于模型训练的数据将几乎被用尽。在这种情况下,如何突破数据瓶颈,实现模型能力的提升,就成为了急需解决的课题。
在谈及数据的质量问题时,何聪辉提到,很多企业开始在同质化的互联网数据中进行比拼,但如何提升数据质量,仍然是一个亟待解决的问题。中国庞大的人口与多元化的产业虽然沉淀了丰富的私域数据,但真正能够为大模型带来显著性能提升的数据却少之又少。
如何理解何聪辉提到的“高知识密度”数据?他解释道,这类数据的知识含量超出一般水平,通常包含更深刻的学术观点或领域专业知识。以科学研究为例,硕士、博士级别的专业数据,甚至是研究过程中涉及的思考与推理,都是极具价值的。简单除了最终的科研结果,如论文,我们在乎的还是研究过程中各个环节的思考与试错过程。这些高层次的数据会极大地推动模型的学习与提升。
相比于海量的网络数据,这类“高知识密度”数据的获取难度显著增加。国际上,许多大型企业已经开始组建专业团队进行数据标注,甚至采用数据合成技术以扩充数据。何聪辉提到,上海AI实验室正在启动“AI4S攀登者计划”,与高校合作构建高质量的数据,以为未来AI技术的进一步发展铺路。
根据何聪辉的分析,数据的价值在于能够通过对模型的深入理解得到不断挖掘。目前,主流的大语言模型多集中于文本模态,未来则可能在音频、图像及视频等多模态数据融合方面释放更大的潜力。因此,在现阶段模型架构尚无重大突破的背景下,数据的优化依旧是性价比最高的演进路径。
深度剖析竞争对手的成果时,何聪辉提到Grok 3模型的显著算力投入与其有限的效率提升之间的矛盾。这一现象印证了数据质量的重要性,DeepSeek则以更低的成本通过强化学习与数据蒸馏,达到相似的效果。两者之间的技术哲学也显而易见:一种是“大力出奇迹”,另一种则是“四两拨千斤”。从长远来看,拥有更多算力资源的确会在试错与迭代上提供更大的优势。
在谈到与开源项目的关系时,何聪辉指出,开源正在快速重构AI产业生态,并积极改变竞争规则。数据、模型和工具链的开源,推动了AI技术的民主化,使得各方无需重复造轮子,专注于已有成果的二次创新。何聪辉提到,他和团队研发的MinerU智能文档解析工具在短短几个月内就在GitHub上获得了超过2.6万个星标,展现了开源项目在加速数据准备、模型迭代和落地效率方面的巨大作用。
在的日子里,随着DeepSeek继续开源五个代码库,何聪辉表示期待能在数据集构建、处理流程及数据合成等领域吸取更多经验与教训。他相信,开源的透明度将促进AI的安全与可持续发展,为整个行业的未来打下坚实基础。
在2025全球开发者先锋大会的背景下,AI竞赛依旧如火如荼,而数据优化正成为关键的突破口。未来的胜者,可能正是那些能够深刻理解数据价值,并利用其潜力进行创新的团队。