新研究揭示DeepSeek与OpenAI模型之间74%的风格相似性

时间：2025-03-05 01:20

小编：星品数码网

近期一项新研究显著地揭示了人工智能文本生成模型DeepSeek与OpenAI模型之间存在74.2%的风格相似性。这项研究由Copyleaks进行，发现其结果引发了对DeepSeek模型训练过程中可能存在的问题的广泛讨论，尤其是关于其是否使用了OpenAI模型输出作为训练数据的质疑。

研究显示，正如每个人有独特的指纹一样，各种人工智能模型也表现出独特而易识别的文体特征。DeepSeek以其典型的“DS味”风格而闻名，其文风中充满了丰富的意象、隐喻和互文关系。相较于其他模型，DeepSeek文本的特殊性是非常容易辨认的。

Copyleaks开发了一套精准的文本生成模型识别系统，旨在分类与检测不同AI模型所生成文本的来源。该系统由三个主要分类器组成，分别基于不同的架构和训练数据集进行训练。在这一研究中，Copyleaks对Claude、Gemini、Llama和OpenAI模型生成的文本进行了大量分析，并得到了令人瞩目的结果。系统的总体准确性高达99.88%，假阳性率低至0.0004，这表明其在识别不同模型生成文本方面的高精度。

经过这套识别系统分析后，其结果显示DeepSeek生成的文本中，有74.2%被判断为与OpenAI生成的文本相似。相较之下，被测试的其他模型（如phi-4和Grok-1）的文本在风格上与上述四大模型几乎没有任何相似性，这引起了研究者对DeepSeek训练过程的深刻质疑。

Copyleaks的数据科学主管Shai Nisan表示，这种相似性并不直接证明DeepSeek是基于OpenAI生成的衍生产品，但确实激发了对其开发过程的深入思考。Nisan指出，由于OpenAI作为市场的领先者，DeepSeek的高相似性结果使得其架构与训练数据的来源成为关注焦点。

除了风格相似性的问题，另一个可能影响结果的因素是数据集的重叠。随着时间的推移，AI模型在风格上的趋同现象会被加剧，尤其在重叠数据集进行训练的情况。

Copyleaks为其分类系统提供了一种创新的方法，通过使用来自OpenAI、Llama、Claude和Gemini生成的50000条文本进行训练，让其分类器具备更全面的识别能力。研究者使用五个标准来评估文本的来源，并采用一致同意制来降低误判。这种方法显著提高了结果的准确性，使得唯一一致的识别结果大大减少了可靠性较低的可能性。

针对DeepSeek的质疑声在模型发布后并未平息，尽管如此，使用该模型的机构却在不断增加。为了回应外界的质疑，DeepSeek团队最近开源了一系列用于提高生成算法执行效率的核心技术，展现了其对开源精神的坚守。

随着研究的逐步深入，关于DeepSeek与OpenAI之间风格相似性的讨论将持续引发关注。科研界对AI发展及其潜在应用的期待与创新是必然的，但同时，确保AI发展的透明性，以及对算法和训练数据来源的审查也是至关重要的。未来，相关的技术报告和研究将进一步明晰这方面的情况。

再者，值得注意的是，AI技术的快速发展需要为此提供兼顾前沿和规范的环境，确保模型输出的安全性与可靠性。随着不同AI模型之间的相互借用和发展，科研人员及开发者必须在创新的同时保持警惕，在追求更高效的生成能力的同时，确保模型的独立性与道德合法性。

而言，新研究揭示了DeepSeek与OpenAI模型之间高达74%的风格相似性，这一发现不仅对DeepSeek的开发模式提出了质疑，更促使我们思考AI模型在风格与数据集重叠下的演变过程。未来，应该建立更严格的审查机制，以确保AI技术在创造力探索与伦理责任方面实现平衡。

新研究揭示DeepSeek与OpenAI模型之间74%的风格相似性

精品推荐

相关文章