数据来源曝光：AI领域面临集权与文化偏见挑战

时间：2025-02-03 18:40

小编：星品数码网

在人工智能（AI）技术飞速发展的背景下，数据作为其核心驱动力的重要性不言而喻。近年来，随着大型语言模型（LLM）和智能体（Agent）技术的成熟，数据收集与使用的规范却显得相对滞后。由超过50名来自学术界和工业界的研究人员组成的数据溯源计划（Data Provenance Initiative, DPI）正在努力回答一个关键问题：AI训练所需的数据究竟来自何处？

“AI就是数据”，这句流行的行业格言已成为业内共识。尽管开发者和研究人员明白数据对算法训练的重要性，但大多数人却并不知道这些数据的真实来源。相较于模型开发的复杂性，AI领域的数据收集方法普遍尚不成熟，很多流行的数据集在内容及其来源上都缺乏明确的说明。

成立于2024年的DPI旨在通过审查近4000个公共数据集，探讨这些数据来源的多样性和可追溯性。其研究涵盖了67个国家，近700个组织和600多种语言，追溯时间长达三十年。这项工作的结果令人担忧：AI数据的收集正在出现“垄断”趋势，越来越多的权力正在聚集于少数科技巨头手中。

LLM数据来源的演变

追溯到2010年代初，AI领域的数据集多样性较高，它们不仅来源于百科全书和互联网，还包括议会记录、财报电话以及天气预报等多种信息源。MIT的研究员Shayne Longpre指出，当时的数据集是为了特定任务专门构建的，因此数据来源较为繁杂。自2017年Transformer模型的出现开启“大模型”时代后，对数据规模的依赖使得这些数据集的来源逐渐单一化。

从2018年开始，网络内容成为所有媒介数据（包括音频、图像和视频）的主要基础，导致目前大多数AI数据集几乎是通过互联网无差别抓取而成。随着对模型规模和性能需求的提升，合成数据的使用量也大幅增加。在多模态生成AI崛起的时代，尤其是图像和视频生成模型的出现，使得对数据的不断渴求愈加明显。以视频模型为例，超过70%的训练数据均来自YouTube，这使得掌握YouTube的谷歌等科技巨头在AI发展中占据了明显的优势。

数据集缺乏透明度

尽管很多科技公司会发布部分模型的代码或权重，实际公开的训练数据却极为有限。这不仅是出于保护竞争优势，还因为复杂且不透明的数据捆绑和分发模式使得公司无法准确追溯数据的来源。DPI研究人员发现，许多数据集都附加了限制性许可，使得它们只能用于学术或非营利目的，开发者几乎无法确保模型训练过程中没有使用受版权保护的数据。

OpenAI、谷歌等公司与主要论坛、社交媒体达成的独家数据共享协议，则是这些企业加强对数据集控制的另一种表现。这种趋势对大型科技企业有利，但使得学术界、非营利组织和小型企业处于较为不利的境地，从而导致新一轮的数据“非对称访问”。

数据偏见：区域与文化的缺乏代表性

DPI的研究还揭示出，AI模型训练数据的地域偏见问题相当严重。在分析的数据集中，超过90%的数据来源于欧洲和北美，仅有不到4%来自非洲。Hugging Face的首席伦理学家Giada Pistilli指出，英语在训练数据中的主导地位，一方面是因为互联网内容的语言趋势，另一方面则是数据聚合时开发者的选择偏见。

结果是，大多数多模态模型的输出仍然反映出西方文化的中心主义。当AI被提示生成相关内容时，例如婚礼场景，得到的结果往往都是西式婚礼的表现，而非体现各地多元文化的画面。这种现象不仅反映了人类社会中存在的偏见，还加剧了文化表现的单一化，在潜移默化中塑造了一种以美国为中心的全球视野。

寻求更为公平的数据治理方案

在AI发展过程中，数据的来源、结构及其背后的文化倾向都是不可忽视的议题。DPI的研究工作已然揭示了当前AI领域面临的集权与文化偏见的双重挑战。为了确保AI技术的公平性与多样性，迫切需要建立更为科学和透明的数据收集和使用标准，确保各个地区、不同文化都有平等的代表性，从而促进全球范围内更广泛的创新与发展。

在未来的发展道路上，挑战依然存在，但只有当数据的来源和使用变得更加公开和透明，AI才能朝着更加公平和可持续的方向迈进。

数据来源曝光：AI领域面临集权与文化偏见挑战

精品推荐

相关文章