OpenAI FrontierMath 事件引发舆论风波:一场操控与透明性之争
时间:2025-01-20 17:00
小编:小世评选
近期,OpenAI再次因为其新发布的AI模型——o3而卷入舆论的漩涡。据悉,事情起源于LessWrong论坛的一则爆料。一名自称“Meemi”的Epoch AI承包商曝光,OpenAI不仅为其开发的FrontierMath基准测试提供了资金支持,还获得了测试题库的特权访问权限。这一消息在o3于2023年12月20日正式发布后由Epoch AI宣传,随即引发了在AI圈内的轩然大波。这种“裁判兼选手”的局面,让众多网友感到疑惑和不安。
背景方面,o3作为OpenAI新一代AI模型,号称打破了AI在数学推理领域的极限。其在FrontierMath基准测试中的表现尤其引人注目,准确率达到25.2%,远超其竞争对手,如GPT-4和Gemini等,后者准确率低于2%。FrontierMath是一个由Epoch AI和60多位顶级数学家共同开发的高级数学推理能力评估标准,涵盖数论、实分析、代数几何等多个数学分支,问题难度极高,连2006年菲尔兹奖得主陶哲轩都评价其问题“极其具有挑战性”。
o3模型的辉煌成绩在爆料曝光后遭遇了舆论的反转。Epoch AI副主任Tamay Besiroglu对此表示歉意,承认未能及早披露OpenAI在FrontierMath的参与是个错误。他表示,合同限制了他们在o3发布前的公开讨论,但回想,确实应该提前争取透明度。更有斯坦福大学的数学博士生Carina Hong指出,在Epoch AI的安排下,OpenAI对FrontierMath的某些内容拥有特殊访问权,而参与的数学家对此并不知情。
面对这样的质疑,Tamay Besiroglu进一步通过博客表示,OpenAI的资金支持仅限于FrontierMath的开发,并未干预测试内容,所有问题都经过独立专家审核。他澄清OpenAI能访问的仅是大部分FrontierMath中的问题和解答,其中有保留集的数据是OpenAI无法接触的,以确保模型的独立验证。
尽管如此,这些澄清并未能平息公众的质疑,反而引发了更多的批评。计算机科学家Subbarao Kambhampati对此保持怀疑态度,认为OpenAI此番行为实属可疑。而知名AI专家Gary Marcus则直接对OpenAI的o3演示进行了猛烈抨击,称其是一场“操作的、误导性的、科学上粗制滥造的展示”。他用一个通俗易懂的比喻说明:如果有人在比赛中获得了试题及其答案,而其他人只能凭实力应考,显然这种比较缺乏公平性。
在Marcus看来,此次事件的重要背景未被OpenAI充分披露,而在展示过程中,他们也未公开成功与失败的具体案例、更没有详细的推理过程记录。Epoch AI未被允许对保留测试集进行验证,这使人对o3模型的结果产生了更多怀疑。公众对OpenAI炒作行为的疲惫与对其潜在“刷榜”行为的敏感反应,也使得此次风波更加激烈。
舆论的激荡并没有就此平息,正当争议持续发酵之际,OpenAI又宣布其新项目“Operator”取得突破,CEO Altman计划于1月30日向美国进行闭门简报。“Operator”被描述为具有博士水准能力的自主AI智能体,能够独立执行多项任务,包括编写代码和管理日程。在这种情况下,OpenAI需要更有效的危机公关策略,而及时发布o3成果也被外界视为一种应对措施。
OpenAI FrontierMath事件的发生,反映出科技领域中操控与透明性之间的斗争。在科技迅速发展的今天,透明性显得尤为重要。企业在追逐技术突破的同时,若对自己的数据和成果保持隐秘,必然会导致公众的疑虑和不信任。如何在技术创新和透明度之间寻求平衡,是OpenAI以及其他科技企业未来亟需解决的问题。随着事件的持续发酵,外界对于OpenAI的信任度或将受到影响,而未来他们将在透明性方面作何承诺也将受到严格的关注。