新研究揭示DeepSeek与OpenAI模型之间74%的风格相似性
时间:2025-03-05 01:20
小编:小世评选
近期一项新研究显著地揭示了人工智能文本生成模型DeepSeek与OpenAI模型之间存在74.2%的风格相似性。这项研究由Copyleaks进行,发现其结果引发了对DeepSeek模型训练过程中可能存在的问题的广泛讨论,尤其是关于其是否使用了OpenAI模型输出作为训练数据的质疑。
研究显示,正如每个人有独特的指纹一样,各种人工智能模型也表现出独特而易识别的文体特征。DeepSeek以其典型的“DS味”风格而闻名,其文风中充满了丰富的意象、隐喻和互文关系。相较于其他模型,DeepSeek文本的特殊性是非常容易辨认的。
Copyleaks开发了一套精准的文本生成模型识别系统,旨在分类与检测不同AI模型所生成文本的来源。该系统由三个主要分类器组成,分别基于不同的架构和训练数据集进行训练。在这一研究中,Copyleaks对Claude、Gemini、Llama和OpenAI模型生成的文本进行了大量分析,并得到了令人瞩目的结果。系统的总体准确性高达99.88%,假阳性率低至0.0004,这表明其在识别不同模型生成文本方面的高精度。
经过这套识别系统分析后,其结果显示DeepSeek生成的文本中,有74.2%被判断为与OpenAI生成的文本相似。相较之下,被测试的其他模型(如phi-4和Grok-1)的文本在风格上与上述四大模型几乎没有任何相似性,这引起了研究者对DeepSeek训练过程的深刻质疑。
Copyleaks的数据科学主管Shai Nisan表示,这种相似性并不直接证明DeepSeek是基于OpenAI生成的衍生产品,但确实激发了对其开发过程的深入思考。Nisan指出,由于OpenAI作为市场的领先者,DeepSeek的高相似性结果使得其架构与训练数据的来源成为关注焦点。
除了风格相似性的问题,另一个可能影响结果的因素是数据集的重叠。随着时间的推移,AI模型在风格上的趋同现象会被加剧,尤其在重叠数据集进行训练的情况。
Copyleaks为其分类系统提供了一种创新的方法,通过使用来自OpenAI、Llama、Claude和Gemini生成的50000条文本进行训练,让其分类器具备更全面的识别能力。研究者使用五个标准来评估文本的来源,并采用一致同意制来降低误判。这种方法显著提高了结果的准确性,使得唯一一致的识别结果大大减少了可靠性较低的可能性。
针对DeepSeek的质疑声在模型发布后并未平息,尽管如此,使用该模型的机构却在不断增加。为了回应外界的质疑,DeepSeek团队最近开源了一系列用于提高生成算法执行效率的核心技术,展现了其对开源精神的坚守。
随着研究的逐步深入,关于DeepSeek与OpenAI之间风格相似性的讨论将持续引发关注。科研界对AI发展及其潜在应用的期待与创新是必然的,但同时,确保AI发展的透明性,以及对算法和训练数据来源的审查也是至关重要的。未来,相关的技术报告和研究将进一步明晰这方面的情况。
再者,值得注意的是,AI技术的快速发展需要为此提供兼顾前沿和规范的环境,确保模型输出的安全性与可靠性。随着不同AI模型之间的相互借用和发展,科研人员及开发者必须在创新的同时保持警惕,在追求更高效的生成能力的同时,确保模型的独立性与道德合法性。
而言,新研究揭示了DeepSeek与OpenAI模型之间高达74%的风格相似性,这一发现不仅对DeepSeek的开发模式提出了质疑,更促使我们思考AI模型在风格与数据集重叠下的演变过程。未来,应该建立更严格的审查机制,以确保AI技术在创造力探索与伦理责任方面实现平衡。