2024中国AI大模型能力测评：信息搜集能力领先但新闻写作仍待提升

时间：2025-01-14 01:10

小编：小世评选

近日，新京报AI研究院发布了2024年第二期中国AI大模型测评报告，评估了国内11款主流大语言模型在信息搜集、新闻写作、事实核查、翻译及长文本处理等五个维度的能力。这份报告不仅显示了AI技术在信息处理领域的迅速发展，还揭示了一些仍待改善的短板，尤其是在新闻写作方面。

信息搜集能力表现突出

在信息搜集能力的评估中，整体得分达到了6.166分，处于五个维度的领先地位。此次评测关注的是模型在日常信息检索中的效能，测试题目包括时事新闻的及获取的最新动态。通义千问以6.95分的成绩位列首位，其它大部分模型也表现出了可观的能力。但报告中指出，个别模型在理解用户提示时的偏差导致了一些不理想的结果，比如百小应在特定问题上偏离了用户的期待。这显示出，尽管模型的信息提取能力在提升，依然存在理解上下文和具体用户需求的挑战。

新闻写作能力亟待提高

相比于信息搜集，新闻写作的能力则显得相对较弱，得分仅为5.678分，排在所有维度的。这一评估涵盖了时效性、逻辑性和创造性等多个方面，测试中发现，许多大模型在生成新闻稿件时的表现较为单一，缺乏鲜明的角度和创意。尤其是在内容的准确性和逻辑性上，某些模型生成的文本存在明显的语法或拼写错误，严重影响了新闻报道的质量。因此，在将AI应用于新闻创作时，行业从业者需保持谨慎，利用AI生成的初稿并进行后期的人工和审校，才能确保发布内容的质量。

事实核查与价值观判断能力有所下降

在事实核查与价值观判断的测试中，整体得分为5.767分，这一结果低于及格线，反映出AI在面对小众谣言时的识别能力不足。在某些案例中，如有关冷冻食品的谣言，即便是相对简单的内容，部分模型仍未能精准识别并给出合理解释。这使得我们意识到，在使用AI进行事实核查时，不能仅依赖于机器生成的结果，必要时应结合专业知识和人工审核，确保信息的真实性和价值观的正当性。

翻译能力轻微下滑，专业领域仍显吃力

翻译能力此次测评得分为6.136分，相较于上一次测评有一定下滑。尽管整体表现仍然可接受，但在处理专业领域的文体时，模型的表现显得有些捉襟见肘。这证明，大模型在传统文本翻译方面已取得进展，但在面对需要高度专业化的内容时，如科研文章或法律文本，仍需加强训练，提高翻译的准确性和文化适应性。模型翻译结果的自然流畅度和准确性都显得尤为重要，未来的发展中，应更加关注不同类型文本的特点，以提高翻译的灵活性。

长文本能力显著提升，但财报分析仍不理想

在长文本处理方面，模型的能力有了显著提升，得分达到5.845分，尤其是在信息检索的准确性上表现良好。但在针对财报分析的测试中，多个模型表现出无法准确识别和企业财报分析所需的重点信息。这指出了一个关键问题，对于需要严谨分析和高准确度的财务工作，当前的大模型尚不具备取代专业分析师的实力。这也意味着，如果将AI应用于此类工作，用户仍需手动进行多次核对和考量，确保结果的可靠性。

未来展望与建议

通过此次测评，可以看到，尽管大模型在信息搜集和长文本处理能力上都有了明显的提升，但在新闻创作和实际应用中仍显稚嫩。为了更好地支持传媒行业的工作流程，未来的开发和优化应注重以下几点：

1. 加强用户训练：提升模型对人类需求和上下文的理解能力，使其能够更准确地反映用户意图。

2. 提升创意生成：在新闻写作等创造性文本生成中，要注重推动模型的创新能力，鼓励多样化和独特视角的内容产生。

3. 加强事实核查机制：结合人工审核的方式，确保AI在处理敏感议题和谣言识别时的准确性。

4. 强化专业领域训练：针对专业性文本，如财务报表、法律文本等，构建专门的训练数据集，以提升模型在这些领域的表现。

2024年的AI大模型测评为我们提供了一扇窗，透过这扇窗我们看到了AI技术在传媒行业的潜力与挑战。随着技术的不断发展与优化，未来的AI将更好地服务于为媒体工作提供支持，推动信息传播的效率与质量提升。