研究揭示大型语言模型在医学信息训练中的“数据投毒”风险

时间：2025-01-17 12:10

小编：小世评选

最近，纽约大学的一项研究揭示了大型语言模型（LLM）在医学信息训练中可能面临的“数据投毒”风险。随着人工智能技术越来越多地应用于医学领域，了解并应对数据在训练过程中可能产生的影响变得格外重要。这项研究的发现不仅引发了人们对AI伦理的关注，也提醒了我们在使用AI生成医学信息时需要保持警惕。

所谓“数据投毒”，指的是通过在训练数据集内注入特定信息，故意引导模型学习这些错误或有偏见的信息。由于大型语言模型通常从互联网爬取大量数据进行训练，任何在数据中加入的错误信息都可能被模型视为事实。这一现象的潜在危害尤其在医学领域显得尤为突出，因为错误的医学信息可能会导致错误的诊断和治疗，威胁到患者的生命健康。

研究团队在调查中选择了“The Pile”数据库，这是一个广泛用于训练大型语言模型的数据集，包含了大量未经人工审核的医学信息。研究人员特别注意到，该数据库中约四分之一的来源缺乏充分的验证，大部分内容源自互联网爬虫的结果。他们在三个医学领域（即普通医学、神经外科和药物学）中，挑选了60个主题，并在“The Pile”中注入了由GPT-3.5生成的“高质量”医学错误信息，以观察模型在这种情况下的表现。

结果显示，即使仅替换了0.5%至1%的相关信息，经过训练后的模型在那些主题上生成错误信息的几率显著增加。这种信息污染不仅局限于特定主题，还可能影响到其他医学领域，形成更广泛的错误认知。这使得人们对大型语言模型提供的医学信息的可靠性产生了疑虑，尤其是非专业人士往往依赖这些模型获取医学建议。

更为惊人的是，研究还发现，错误信息的影响门槛非常低。以疫苗错误信息为例，即便错误信息的比例在训练数据中仅占0.01%，模型生成的回答中就会有超过10%包含错误信息。在模拟攻击方面，研究人员进一步表明，只需撰写四万篇含有错误信息的文章（其成本低于100美元），便可对拥有700亿参数的LLaMA 2模型实施成功的数据投毒。这些文章的形式可以是普通网页，甚至通过隐藏文本等方式，将错误信息巧妙地藏匿其中，从而不易被察觉。

在识别和应对这些潜在风险的方面，研究团队提出了一种算法，能够有效识别大型语言模型输出中的医学术语，并将其与经过验证的生物医学知识图谱进行交叉引用。这一方法虽然并未能囊括所有的医学错误信息，却成功地标记了大部分可疑内容，为未来在医学领域应用大型语言模型提供了新的思路。

值得注意的是，连最为优质的医学数据库，比如PubMed，也同样无法完全排除错误信息的存在。医学文献中常常充斥着未能实现的理论和已经被淘汰的治疗方法，这使得即便是经验丰富的专业人士在数据使用上也需保持谨慎。这一现象在一定程度上说明了医学领域本身的复杂性，使得建立一个完全可靠的医学大型语言模型变得极其困难。

在现代信息空间中，网络上的污染信息量巨大，医学界面临着前所未有的挑战。虽然大型语言模型在数据分析和信息生成方面具有显著优势，但当它们用于关键的医学决策时，错误信息的潜在风险必须引起更多的关注。为了确保AI在医学领域中的应用尽可能安全有效，研究人员和开发者们都需要共同努力，建立更为严格的数据审查机制，提高模型对错误信息的抵抗力。

随着大型语言模型在各个领域的广泛应用，尤其是在医学领域，我们必须高度重视其中的风险与挑战。研究者们的这一发现不仅警示我们在AI技术迅猛发展的背景下，如何更谨慎地使用和信任机器生成的信息，也促使相关领域在技术发展、伦理规制及信息审核等方面进行更深入的探索与完善。

研究揭示大型语言模型在医学信息训练中的“数据投毒”风险

精品推荐

相关文章