OpenAI FrontierMath 事件引发舆论风波：一场操控与透明性之争

时间：2025-01-20 17:00

小编：小世评选

近期，OpenAI再次因为其新发布的AI模型——o3而卷入舆论的漩涡。据悉，事情起源于LessWrong论坛的一则爆料。一名自称“Meemi”的Epoch AI承包商曝光，OpenAI不仅为其开发的FrontierMath基准测试提供了资金支持，还获得了测试题库的特权访问权限。这一消息在o3于2023年12月20日正式发布后由Epoch AI宣传，随即引发了在AI圈内的轩然大波。这种“裁判兼选手”的局面，让众多网友感到疑惑和不安。

背景方面，o3作为OpenAI新一代AI模型，号称打破了AI在数学推理领域的极限。其在FrontierMath基准测试中的表现尤其引人注目，准确率达到25.2%，远超其竞争对手，如GPT-4和Gemini等，后者准确率低于2%。FrontierMath是一个由Epoch AI和60多位顶级数学家共同开发的高级数学推理能力评估标准，涵盖数论、实分析、代数几何等多个数学分支，问题难度极高，连2006年菲尔兹奖得主陶哲轩都评价其问题“极其具有挑战性”。

o3模型的辉煌成绩在爆料曝光后遭遇了舆论的反转。Epoch AI副主任Tamay Besiroglu对此表示歉意，承认未能及早披露OpenAI在FrontierMath的参与是个错误。他表示，合同限制了他们在o3发布前的公开讨论，但回想，确实应该提前争取透明度。更有斯坦福大学的数学博士生Carina Hong指出，在Epoch AI的安排下，OpenAI对FrontierMath的某些内容拥有特殊访问权，而参与的数学家对此并不知情。

面对这样的质疑，Tamay Besiroglu进一步通过博客表示，OpenAI的资金支持仅限于FrontierMath的开发，并未干预测试内容，所有问题都经过独立专家审核。他澄清OpenAI能访问的仅是大部分FrontierMath中的问题和解答，其中有保留集的数据是OpenAI无法接触的，以确保模型的独立验证。

尽管如此，这些澄清并未能平息公众的质疑，反而引发了更多的批评。计算机科学家Subbarao Kambhampati对此保持怀疑态度，认为OpenAI此番行为实属可疑。而知名AI专家Gary Marcus则直接对OpenAI的o3演示进行了猛烈抨击，称其是一场“操作的、误导性的、科学上粗制滥造的展示”。他用一个通俗易懂的比喻说明：如果有人在比赛中获得了试题及其答案，而其他人只能凭实力应考，显然这种比较缺乏公平性。

在Marcus看来，此次事件的重要背景未被OpenAI充分披露，而在展示过程中，他们也未公开成功与失败的具体案例、更没有详细的推理过程记录。Epoch AI未被允许对保留测试集进行验证，这使人对o3模型的结果产生了更多怀疑。公众对OpenAI炒作行为的疲惫与对其潜在“刷榜”行为的敏感反应，也使得此次风波更加激烈。

舆论的激荡并没有就此平息，正当争议持续发酵之际，OpenAI又宣布其新项目“Operator”取得突破，CEO Altman计划于1月30日向美国进行闭门简报。“Operator”被描述为具有博士水准能力的自主AI智能体，能够独立执行多项任务，包括编写代码和管理日程。在这种情况下，OpenAI需要更有效的危机公关策略，而及时发布o3成果也被外界视为一种应对措施。

OpenAI FrontierMath事件的发生，反映出科技领域中操控与透明性之间的斗争。在科技迅速发展的今天，透明性显得尤为重要。企业在追逐技术突破的同时，若对自己的数据和成果保持隐秘，必然会导致公众的疑虑和不信任。如何在技术创新和透明度之间寻求平衡，是OpenAI以及其他科技企业未来亟需解决的问题。随着事件的持续发酵，外界对于OpenAI的信任度或将受到影响，而未来他们将在透明性方面作何承诺也将受到严格的关注。

OpenAI FrontierMath 事件引发舆论风波：一场操控与透明性之争

精品推荐

相关文章