谷歌DeepMind发布新款Gemini Robotics机器人，提升物理世界理解能力

时间：2025-03-13 18:30

小编：小世评选

近日，谷歌DeepMind宣布推出其最新机器人工程成果——Gemini Robotics，这一系列新型机器人基于其强大的Gemini 2.0模型构建，旨在提升机器人的物理世界理解能力与任务执行能力。此次发布的Gemini Robotics包括两个主要模型，一个具备在未经特定训练的情况下理解和执行新任务的能力，另一个则重点增强了机器人的空间推理能力，使其能更好地与复杂物理环境互动。

技术革新与多模态理解

借助于Gemini 2.0的多模态理解能力，Gemini Robotics能够迅速感知环境，并对声音指令做出反应。用户只需简单发出语音命令，机器人便能够完成包括感知、理解到执行的一系列操作。例如，用户要求机器人将一个篮球放入篮筐，机器人可以迅速识别并执行这一任务，充分展示了其的灵活性与适应能力。

在具体的操作方面，Gemini Robotics展现了其优秀的操作灵巧性。无论是在家庭环境还是工业场所，该机器人皆能轻松应对包括组件搬运、餐盒打包、抓取小物品如豌豆等精细操作。这种能力的提升源于它在处理多样性任务时的自我学习能力。这种求知能力的增长，使其有望在更多实际应用场景中发挥作用。

理解与反应多样化指令

Gemini Robotics的另一个显著特点是其出色的语言理解能力。依托于Gemini 2.0的创新算法，Gemini Robotics能够理解不同语言表述的指令，并灵活调整其行为。这种跨语言的理解，使得机器人能够在全球范围内被高效使用，方便了不同使用者的需求。

例如，当用户指示机器人将葡萄和香蕉放入同一透明碗中时，无论碗的位置如何变化，机器人都能够精确找到目标物体并进行操作。Gemini Robotics还能够在多种场景中持续监测其周围环境，以便及时调整其行为，保持与人类的有效协作。

复杂任务的执行与空间推理能力

Gemini Robotics的另一个亮点是其在处理多步骤复杂任务方面的能力。例如，在要求机器人完成折纸等需要精细操作的任务中，它能够通过分析准确判断并实施任务。这种能力的提升得益于其强大的空间理解和规划能力，使其能够在面临高度复杂的物理环境时依然能够高效率运作。

更具突破性的是，Gemini Robotics-ER模型的推出。该模型专注于帮助机器人理解复杂的、动态变化的物理环境，特别是在空间推理方面。机器人专家可以将Gemini Robotics-ER模型与现有的低级控制器进行连接，从而实现对机器人控制的全面提升。举例当展示一个机器人未曾见过的咖啡杯时，Gemini Robotics-ER能够判断出以正确的方式握住手柄并找到安全接近的路径。

安全性与适配性

在安全性和适配性方面，DeepMind也没有忽略。Gemini Robotics能够处理各式各样的机器人形态，包括基于双臂机器人ALOHA 2和Franka机械臂的双臂，以及更为复杂的人形机器人Apollo。这种适应性使得不同领域的机器人能迅速切换使用Gemini Robotics模型进行高效操作。

DeepMind十分关注Gemini Robotics-ER在操作过程中的安全性。新模型具备理解和评估潜在行动是否安全执行的能力，基于具体上下文生成相应的反应，提高了机器人与人类协作的安全性。这种安全保障措施对提升公众对机器人技术的信任具有重要意义。

未来展望与挑战

随着Gemini Robotics系列模型的推出，谷歌DeepMind在推动通用具身智能机器人的研发现已取得了显著进展。团队也意识到当前模型在处理长视频空间关系和推动复杂场景中的多步骤推理能力仍存不足，后续仍需持续优化和改进。在实现零样本跨实体形态迁移方面的挑战也将是团队未来努力的方向。

Gemini Robotics的问世将是机器人技术发展史上的一个重要里程碑，推动了机器人在物理世界的通用能力的实现，为各个行业的智能化转型提供了新的解决方案与路径。随着这一新技术的不断发展和完善，未来我们能看到更多样、灵活和安全的机器人应用于日常生活、工业生产等各个领域。

谷歌DeepMind发布新款Gemini Robotics机器人，提升物理世界理解能力

精品推荐

相关文章