免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 数码科技 > 研究揭示大型语言模型在医学信息训练中的“数据投毒”风险

研究揭示大型语言模型在医学信息训练中的“数据投毒”风险

时间:2025-01-17 12:10

小编:小世评选

最近,纽约大学的一项研究揭示了大型语言模型(LLM)在医学信息训练中可能面临的“数据投毒”风险。随着人工智能技术越来越多地应用于医学领域,了解并应对数据在训练过程中可能产生的影响变得格外重要。这项研究的发现不仅引发了人们对AI伦理的关注,也提醒了我们在使用AI生成医学信息时需要保持警惕。

所谓“数据投毒”,指的是通过在训练数据集内注入特定信息,故意引导模型学习这些错误或有偏见的信息。由于大型语言模型通常从互联网爬取大量数据进行训练,任何在数据中加入的错误信息都可能被模型视为事实。这一现象的潜在危害尤其在医学领域显得尤为突出,因为错误的医学信息可能会导致错误的诊断和治疗,威胁到患者的生命健康。

研究团队在调查中选择了“The Pile”数据库,这是一个广泛用于训练大型语言模型的数据集,包含了大量未经人工审核的医学信息。研究人员特别注意到,该数据库中约四分之一的来源缺乏充分的验证,大部分内容源自互联网爬虫的结果。他们在三个医学领域(即普通医学、神经外科和药物学)中,挑选了60个主题,并在“The Pile”中注入了由GPT-3.5生成的“高质量”医学错误信息,以观察模型在这种情况下的表现。

结果显示,即使仅替换了0.5%至1%的相关信息,经过训练后的模型在那些主题上生成错误信息的几率显著增加。这种信息污染不仅局限于特定主题,还可能影响到其他医学领域,形成更广泛的错误认知。这使得人们对大型语言模型提供的医学信息的可靠性产生了疑虑,尤其是非专业人士往往依赖这些模型获取医学建议。

更为惊人的是,研究还发现,错误信息的影响门槛非常低。以疫苗错误信息为例,即便错误信息的比例在训练数据中仅占0.01%,模型生成的回答中就会有超过10%包含错误信息。在模拟攻击方面,研究人员进一步表明,只需撰写四万篇含有错误信息的文章(其成本低于100美元),便可对拥有700亿参数的LLaMA 2模型实施成功的数据投毒。这些文章的形式可以是普通网页,甚至通过隐藏文本等方式,将错误信息巧妙地藏匿其中,从而不易被察觉。

在识别和应对这些潜在风险的方面,研究团队提出了一种算法,能够有效识别大型语言模型输出中的医学术语,并将其与经过验证的生物医学知识图谱进行交叉引用。这一方法虽然并未能囊括所有的医学错误信息,却成功地标记了大部分可疑内容,为未来在医学领域应用大型语言模型提供了新的思路。

值得注意的是,连最为优质的医学数据库,比如PubMed,也同样无法完全排除错误信息的存在。医学文献中常常充斥着未能实现的理论和已经被淘汰的治疗方法,这使得即便是经验丰富的专业人士在数据使用上也需保持谨慎。这一现象在一定程度上说明了医学领域本身的复杂性,使得建立一个完全可靠的医学大型语言模型变得极其困难。

在现代信息空间中,网络上的污染信息量巨大,医学界面临着前所未有的挑战。虽然大型语言模型在数据分析和信息生成方面具有显著优势,但当它们用于关键的医学决策时,错误信息的潜在风险必须引起更多的关注。为了确保AI在医学领域中的应用尽可能安全有效,研究人员和开发者们都需要共同努力,建立更为严格的数据审查机制,提高模型对错误信息的抵抗力。

随着大型语言模型在各个领域的广泛应用,尤其是在医学领域,我们必须高度重视其中的风险与挑战。研究者们的这一发现不仅警示我们在AI技术迅猛发展的背景下,如何更谨慎地使用和信任机器生成的信息,也促使相关领域在技术发展、伦理规制及信息审核等方面进行更深入的探索与完善。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多