免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 硬件资讯 > 2024中国AI大模型能力测评:信息搜集能力领先但新闻写作仍待提升

2024中国AI大模型能力测评:信息搜集能力领先但新闻写作仍待提升

时间:2025-01-14 01:10

小编:小世评选

近日,新京报AI研究院发布了2024年第二期中国AI大模型测评报告,评估了国内11款主流大语言模型在信息搜集、新闻写作、事实核查、翻译及长文本处理等五个维度的能力。这份报告不仅显示了AI技术在信息处理领域的迅速发展,还揭示了一些仍待改善的短板,尤其是在新闻写作方面。

信息搜集能力表现突出

在信息搜集能力的评估中,整体得分达到了6.166分,处于五个维度的领先地位。此次评测关注的是模型在日常信息检索中的效能,测试题目包括时事新闻的及获取的最新动态。通义千问以6.95分的成绩位列首位,其它大部分模型也表现出了可观的能力。但报告中指出,个别模型在理解用户提示时的偏差导致了一些不理想的结果,比如百小应在特定问题上偏离了用户的期待。这显示出,尽管模型的信息提取能力在提升,依然存在理解上下文和具体用户需求的挑战。

新闻写作能力亟待提高

相比于信息搜集,新闻写作的能力则显得相对较弱,得分仅为5.678分,排在所有维度的。这一评估涵盖了时效性、逻辑性和创造性等多个方面,测试中发现,许多大模型在生成新闻稿件时的表现较为单一,缺乏鲜明的角度和创意。尤其是在内容的准确性和逻辑性上,某些模型生成的文本存在明显的语法或拼写错误,严重影响了新闻报道的质量。因此,在将AI应用于新闻创作时,行业从业者需保持谨慎,利用AI生成的初稿并进行后期的人工和审校,才能确保发布内容的质量。

事实核查与价值观判断能力有所下降

在事实核查与价值观判断的测试中,整体得分为5.767分,这一结果低于及格线,反映出AI在面对小众谣言时的识别能力不足。在某些案例中,如有关冷冻食品的谣言,即便是相对简单的内容,部分模型仍未能精准识别并给出合理解释。这使得我们意识到,在使用AI进行事实核查时,不能仅依赖于机器生成的结果,必要时应结合专业知识和人工审核,确保信息的真实性和价值观的正当性。

翻译能力轻微下滑,专业领域仍显吃力

翻译能力此次测评得分为6.136分,相较于上一次测评有一定下滑。尽管整体表现仍然可接受,但在处理专业领域的文体时,模型的表现显得有些捉襟见肘。这证明,大模型在传统文本翻译方面已取得进展,但在面对需要高度专业化的内容时,如科研文章或法律文本,仍需加强训练,提高翻译的准确性和文化适应性。模型翻译结果的自然流畅度和准确性都显得尤为重要,未来的发展中,应更加关注不同类型文本的特点,以提高翻译的灵活性。

长文本能力显著提升,但财报分析仍不理想

在长文本处理方面,模型的能力有了显著提升,得分达到5.845分,尤其是在信息检索的准确性上表现良好。但在针对财报分析的测试中,多个模型表现出无法准确识别和企业财报分析所需的重点信息。这指出了一个关键问题,对于需要严谨分析和高准确度的财务工作,当前的大模型尚不具备取代专业分析师的实力。这也意味着,如果将AI应用于此类工作,用户仍需手动进行多次核对和考量,确保结果的可靠性。

未来展望与建议

通过此次测评,可以看到,尽管大模型在信息搜集和长文本处理能力上都有了明显的提升,但在新闻创作和实际应用中仍显稚嫩。为了更好地支持传媒行业的工作流程,未来的开发和优化应注重以下几点:

1. 加强用户训练:提升模型对人类需求和上下文的理解能力,使其能够更准确地反映用户意图。

2. 提升创意生成:在新闻写作等创造性文本生成中,要注重推动模型的创新能力,鼓励多样化和独特视角的内容产生。

3. 加强事实核查机制:结合人工审核的方式,确保AI在处理敏感议题和谣言识别时的准确性。

4. 强化专业领域训练:针对专业性文本,如财务报表、法律文本等,构建专门的训练数据集,以提升模型在这些领域的表现。

2024年的AI大模型测评为我们提供了一扇窗,透过这扇窗我们看到了AI技术在传媒行业的潜力与挑战。随着技术的不断发展与优化,未来的AI将更好地服务于为媒体工作提供支持,推动信息传播的效率与质量提升。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多