研究揭示自回归大模型在认知冲突中的脆弱性与修复难题

时间：2025-01-11 01:00

小编：小世评选

随着人工智能技术的迅猛发展，自回归大模型，如GPT系列，逐渐成为了公众与学术界关注的焦点。其中的“幻觉”问题，即模型在生成内容时产生无根据或虚假的信息，依然困扰着研究者和用户。图灵奖得主、Meta首席科学家杨立昆（Yann LeCun）曾对大模型的核心机制表示质疑，他认为自回归模型的错误概率会随着输出长度的增加而呈指数上升，从而加剧幻觉现象。他还指出，这一问题的性质决定了其“不可修复”。

近日，来自清华大学的研究团队对此进行了深入探讨，特别关注大模型在处理“认知冲突”时的表现。他们的研究揭示了自回归大模型在面对说服性对话时，特别是事实性问题时的脆弱性及其易受外部因素影响修改答案的特性。在没有外部意见的情况下，这些模型在处理认知冲突时的能力也表现得极为薄弱，容易导致其产生错误的。

自回归大模型的基本推理机制是通过从N个token预测第N+1个token，这种逐步推理的模式使得生成的结果很容易受到上一时刻错误选择的影响，导致累积的错误。当研究者对模型施加“重新思考并回答”的提示时，结果似乎与告诉模型“你的回答错了”无异，也可能引发模型产生新的错误答复，从而影响其性能表现。

更深入地，研究团队通过实验探讨了人类在面对观点冲突时的行为。当人类个人观点A与外界观点B相对立时，通常有三种解决方法：坚持己见、信任他人或通过讨论形成新的共识。这种复杂的哲学问题在大模型中却显得相对简单，研究表明，自回归大模型很难像人类那样展示出从讨论中成长的能力。一项实验显示，大模型只需一个简单理由便能改变观点，而在多轮对话中达成共识的能力几乎不存在。

研究中的一项重要发现是，实验通过设计四类说服策略评估大模型的反应。这些说服策略，包括重复强调、理性诉求、权威诉求和情感诉求，均显示出大模型的脆弱性。例如，使用权威身份或引入情感故事可以显著影响模型的输出，而在面对复杂内容时，大模型却只能重复原有观点或盲目跟随外部意见。

这项研究的重点在于揭示大模型在面对认知冲突时表现出的缺陷。即使在没有外部干预的情况下，模型的反应依然存在问题，比如在被要求“再想一下”时，模型依然可能在正确与错误之间往返，展现出约30%至40%的概率改变先前的回答。尤其是在涉及敏感话题时，错误的反应可能带来严重后果，这凸显了当前大模型在安全性和可靠性方面的潜在风险。

对于提升大模型的能力，研究者认为需要打破OpenAI设定的行为准则，即“每个人都有自己的看法，而我不是来说服你的”。这种设定固然有助于维护用户的自主性，但也造成了模型在处理复杂认知冲突时的局限性。相较之下，谷歌的Gemini模型引入了引用第三方信息的机制，尝试在生成答案的同时辅以信息验证，这在某种程度上能够增强答案的可信性。

这一策略并未从根本上解决认知冲突带来的问题。尽管Gemini可以有效处理一些基础的事实性问题，但在面对深层次的思维和道德判断时，似乎依然无法做到灵活应对。相关研究以《地球是平的，因为……：通过说服性对话调查大语言模型对错误信息的信念》为题，在2024年计算语言学协会年会上发表，并获得杰出论文奖，显示了当前研究的影响力和学术价值。

未来，如何改善自回归大模型在认知冲突处理方面的缺陷，仍然是一个亟待解决的重要课题。研究者呼吁，在不断改进技术的同时，也应更加重视模型在真实环境中的应用表现，重新审视其有效性与可控性。这一挑战不仅关乎机器学习技术的进步，也关系到社会对人工智能的信任与安全需求。

研究揭示自回归大模型在认知冲突中的脆弱性与修复难题

精品推荐

相关文章