谷歌发布Gemini 2.0 Flash AI模型,实现多模态生成与实时交互功能
时间:2024-12-13 22:40
小编:小世评选
作者:赵雨荷
来源:硬AI
为了应对OpenAI旗下陆续推出的多项创新产品,谷歌于周三正式发布其下一代重要人工智能模型Gemini 2.0 Flash。该模型不仅具备强大的文本生成能力,还能够原生生成图像和音频,大大扩展了其应用场景。同时,Gemini 2.0 Flash具备与第三方应用程序和服务的整合能力,意味着它能够通过谷歌搜索执行代码等任务,为用户提供更加丰富的互动体验。
发布与功能特点
从本周开始,Gemini 2.0 Flash的实验版本将通过Gemini API和谷歌的AI开发(包括AI Studio和Vertex AI)开放给开发者。音频和图像生成的功能目前仅对早期接入的合作伙伴开放,预计将在明年1月实现全面发布。谷歌还计划在未来几个月内推出Gemini 2.0 Flash的不同版本,以支持Android Studio、Chrome DevTools和Firebase等工具。
Gemini 2.0 Flash的推出标志着AI技术的又一次重大进步。与其前身1.5 Flash相比,后者只能进行文本生成,且在高负载处理能力方面表现有限。谷歌方面表示,新版本在速度和性能上实现了更好的平衡,能够调用工具如搜索引擎并与外部API进行交互,拓宽了其应用范畴。谷歌Gemini模型产品负责人Tulsee Doshi透露:“Flash因其高效的速度和优异的性能受到开发者好评。我们的2.0版本保持了这一优势,同时在能力上得到了显著增强。”
图像与音频生成功能
Gemini 2.0 Flash的核心优势在于其能够生成和修改图像,这标志着文本生成之外的多模态功能的实现。该模型还可以处理照片、视频和音频录制内容,从而为用户提供与这些内容相关的问题答案。特别值得注意的是,音频生成这一功能被Doshi描述为“可操控”和“可定制”,用户能够选择八种不同口音和语言优化的声音来进行文本朗读,这对于多语言环境下的应用尤为重要。
尽管如此,谷歌尚未提供Gemini 2.0 Flash生成的音频和图像样本,因此外界仍难以评估其输出质量与市场上其他模型的对比。为了应对可能的滥用,谷歌还为2.0 Flash生成的所有音频和图像应用了水印技术,通过其SynthID系统来标记合成内容,以保证生成内容的可信度,尤其在深度伪造危害逐渐增大的背景下,这一做法是响应社会关注的重要举措。
多模态实时交互能力
此版本还包括一个名为Multimodal Live API的新功能,它为开发者提供了创建支持实时音频和视频流的多模态应用程序的能力。这一API将使得开发者能够通过摄像头或屏幕输入来构建应用,支持多种工具集成以及处理自然对话模式,类似于OpenAI的实时API功能。此API自发布之日起便全面开放使用,进一步降低了开发者在建设高端应用时的门槛。
AI代理的崭新探索
在Gemini 2.0 Flash发布的同时,谷歌还推出了一个AI代理的测试版本,此版本目前仅限于少部分预先选定的测试者。该代理的核心理念在于让用户无需直接与网站交互,而是通过生成式AI系统完成搜索、浏览并完成各项任务。例如,用户可以通过AI代理创建虚拟购物车,自动添加选定的商品。尽管此功能在演示中表现出一定的延迟,但所带来的便利性和变化是显而易见的。
谷歌DeepMind公司还推出了针对特定任务的AI代理,如Deep Research和Jules,这些代理旨在帮助用户进行复杂研究、完成代码修改等。该团队还在开发能够帮助用户熟悉游戏的AI代理,尤其是在与游戏开发商的合作中,展现了Gemini在游戏领域的潜力。
AI生成内容的新进展
谷歌还宣布推出基于Gemini 2.0的AI生成摘要功能“AI Overviews”。此功能旨在为某些Google搜索查询提供更复杂话题的摘要,并能够处理多模态和多步骤的搜索内容。尽管此前AI Overviews曾因提供不准确的信息受到质疑,但谷歌强调,随着技术的进步,预计在明年初将实现更广泛的推广。
谷歌通过Gemini 2.0 Flash模型的推出,不仅展示了其在AI领域的持续创新能力,也为未来的多模态交互提供了新的方向。随着AI技术的不断演进,谷歌希望进一步推动人机交互的革命,提高智能应用的灵活性和实用性,同时加强其在全球数字经济中的竞争力。