OpenAI发布GPT-4.5:情商更高、定价翻倍的最新AI模型
时间:2025-03-01 12:10
小编:小世评选
内容:
2023年2月27日,OpenAI正式发布了其最新的人工智能语言模型——GPT-4.5。这一模型被定义为一种通用型的大语言模型,虽然并非OpenAI的旗舰产品,却因其卓越的“情商”而备受瞩目。这一特性使得它在语义理解与人际交互方面显示出更强的能力,同时,GPT-4.5的API调用价格的确是其前身GPT-4o的两倍,引发了广泛关注。
根据OpenAI的介绍,GPT-4.5是其至今为止最大、知识最丰富的模型,拥有1万亿个激活参数,并且使用的数据量高达120万亿tokens,显著提升了其上下文窗口长度,达到256K tokens。这一技术升级使得模型在处理复杂对话时更加流畅,并具备了更大范围的信息提取和应用能力。
最引人注目的特点是GPT-4.5在“感性能力”方面的大幅提升。这一新模型可以进行更加自然且富有温暖感的交流,能够在新颖且个性化的对话中融入情感。例如,当用户面临生活中困扰的问题,如“我被放鸽子了,我想发个‘恨他们’的短信”的情况时,GPT-4.5会试图安抚用户的情绪,随后再提供建议,展现出一种更加人性化的响应方式。
在处理涉及情感的问题上,GPT-4.5也表现出更高的情感智能。当用户表达低落情绪时,例如说“我考试失败了,心情很低落”,相比于之前的模型直接给出解决方案,GPT-4.5会选择询问用户是否愿意分享感受,或者推荐一些分散注意力的方法。这一变化显示出其在情感交流、创作辅助、客户服务等领域的潜在应用价值。
在生成信息的准确性方面,GPT-4.5的“幻觉率”表现出显著的提升,相较于早期的GPT-4o和o1模型,其错误生成虚假信息的概率被降低至37.1%。而GPT-4则有61.8%的幻觉率。这使得GPT-4.5在信息准确性上更具优势,不过在某些基准测试中,GPT-4.5并未达到行业最前沿的水平。例如,在编程能力方面的SWE-Bench Verified基准测试中,其表现与GPT-4o和o3-mini相当,落后于OpenAI的深度研究成果和Anthropic推出的Claude 3.7 Sonnet。
在学术基准测试AIME和GPQA上,尽管GPT-4.5的表现不如顶尖的AI推理模型,如o3-mini和DeepSeek的R1以及Claude 3.7 Sonnet,但在数学和科学相关问题上,它的表现仍然相对令人满意。这一成果表明,即使在信息生成领域,GPT-4.5依然能够保持一定的竞争力。
值得注意的是,OpenAI在此前推出的模型中如o1等属于推理模型,能够生成“思维链”,在问题解决前进行思考与反思。而GPT-4.5则是一款“非链式思维”模型,其将作为未来推理模型的基础,标志着OpenAI人工智能技术发展上的重要过渡。这一变化使得GPT-4.5在构建与用户之间的互动时更具灵活性和人性化。
在功能方面,GPT-4.5新增了搜索和画布模式,可以支持用户上传文件和图像的功能,但目前暂不支持语音、视频和屏幕共享等多模态功能,这也表明了OpenAI对该技术多样化应用的持续探索。
目前,GPT-4.5已经优先向软件开发者和ChatGPT Pro(每月200美元)用户开放,未来还将面向ChatGPT Plus(每月20美元)和Team订阅用户开放。特别需要指出的是,其定价为每百万token输出150美元,这一数字明显高于GPT-4o的60美元,可能会对用户的选择造成影响。
随着人工智能技术的不断发展,OpenAI发布新模型的节奏正在加快,尤其是在面对来自Anthropic、xAI等公司的激烈竞争时。最近,OpenAI前员工创办的Anthropic推出了Claude 3.7 Sonnet,而马斯克的xAI公司则发布了Grok 3。中国市场中DeepSeek等本土企业的崛起也对OpenAI形成了一定的技术压力。这些竞争驱动着OpenAI不断优化其模型,以保持在行业中的领先地位和优势。
GPT-4.5的推出不仅代表了OpenAI在情感智能领域的重大进展,同时也预示着其在AI模型定价和功能拓展上的新战略。虽然面临挑战,但OpenAI依然在不断探索和创新,以满足用户日益增长的需求。