免费安卓手游下载、分享游戏攻略、电脑硬件资讯、数码科技最新资讯
当前位置: 首页 > 数码科技 > Cerebras CEO:DeepSeek-R1 或成 AI 发展新分水岭

Cerebras CEO:DeepSeek-R1 或成 AI 发展新分水岭

时间:2025-02-19 04:20

小编:小世评选

as CEO:DeepSeek-R1 或成 AI 发展新分水岭

近日,Cere

as公司的首席执行官Andrew Feldman在接受ZDNET采访时,谈及了他们最新推出的AI模型DeepSeek-R1,并表示这一创新可能会成为人工智能发展的重要分水岭。Cere

as一直以来以其专为AI优化的晶圆级芯片而知名。这款芯片的峰值算力达到125 PFLOPS,并且配备的片外内存使得整体内存容量可高达1.2PB,为AI模型的训练和推理提供了强大的支持。

DeepSeek-R1被誉为自然语言处理领域的革命性进展,其预训练所需的成本相比于GPTo1等主流模型能低至十分之一,且在性能上不逊色,甚至在某些情况下表现更优。这种显著的性价比使得许多业内人士将其视为推动AI普及及进步的重要契机。Feldman强调,DeepSeek-R1对于人工智能的影响并非只限于当前阶段,它将为未来更大型的AI系统的开发提供动力。

在使用DeepSeek-R1等推理模型时,用户体验仍然存在挑战。当前存在的一个主要问题是,采用Chain-of-thought(CoT)方法的推理需要分解多步问题,在处理复杂提示时会显得尤为耗时。该方法虽能增强模型的推理能力,却也需要大量的算力去逐字推理,导致用户在获取结果时需要等待较长时间。这一依赖高强度计算的需求使得用户在使用过程中感受到一定的痛苦。

为了解决这一问题,Cere

as建议客户通过“蒸馏”技术来将大型模型的知识转移至较小的模型中。大模型通常被称为“教师模型”,而经过“蒸馏”处理后的较小模型被称为“学生模型”。通过这种方式,可以在保持较高准确率的前提下,显著降低计算需求,从而提升用户的使用体验。

Cere

as还推出了一套标准操作方案,鼓励用户利用在Hugging Face开源提供的DeepSeek模型参数(权重),作为教师模型进行知识蒸馏。值得一提的是,经过蒸馏后,DeepSeek R1模型在Llama 70B模型上的准确性几乎没有下降,这显示了蒸馏技术的有效性和DeepSeek-R1自身的强大性能。

Feldman对DeepSeek-R1的推出感到十分兴奋,并称这是开源AI领域的一次重大胜利。他表示,通过蒸馏,开源模型只需公示模型参数,无需访问源码,便可让研究者能够复现新AI模型的进步。这种开放的理念不仅推动了AI技术的发展,也使得投资者能更容易地在Ai芯片和网络技术领域注入资金。

不过,市场中也存在一定的担忧。有观点认为,随着计算成本的下降,可能导致市场需求的萎缩。这与过去电脑和智能手机价格降低以刺激普及的现象相悖。Feldman则认为,降低的计算成本将会促成更广泛的AI应用,推动行业的整体增长。

自去年8月起,Cere

as开始提供公共推理服务,并自称为“全球最快的AI推理服务提供商”。目前,该公司只对外提供蒸馏后的70B模型,尽管405B的模型虽具备强大计算能力,但由于成本太高,客户的接受度有限。Feldman补充称,在当前市场环境下,客户更偏好性价比高的模型,当然对那些追求更高准确率的客户支付更高成本购买更大模型的想法也是存在的。

Cere

as的DeepSeek-R1为AI领域带来了新的机遇,其在性能和经济性的平衡上取得的巨大成功,不仅为AI的进一步发展奠定了基础,也为整个行业的未来发展注入了新的活力。在不断进化的技术浪潮中,DeepSeek-R1或将成为推动AI行业迈向新高度的里程碑。

精品推荐

相关文章

猜你喜欢

更多

热门文章

更多