OpenAI推出首个智能体“Operator”，打破AI与数字世界界限

时间：2025-01-25 15:30

小编：小世评选

在全球科技界备受瞩目的时刻，OpenAI正式推出了其首个智能体——“Operator”。这一重要发布标志着AI在数字世界的应用进入了一个全新的阶段，展示了AI如何模拟人类与计算机之间的互动。OpenAI的CEO山姆·阿尔特曼(Sam Altman)与团队在一场半小时的线上中，首次向公众演示了这一革命性产品，吸引了无数科技爱好者的目光。

“Operator”智能体的突出特点在于其超强的自主决策能力与人类交互能力。在的演示中，它不仅能准确理解和执行指令，还展示了与网页交互的流畅性，能够像人类一样输入、点击和滚动网页。这一创新使得智能体能够快速且高效地完成一系列复杂任务，包括在线购物、填写表单和处理重复性工作等。对于用户这意味着，他们可以将繁琐的日常操作交给“Operator”，从而节省时间和精力。

驱动“Operator”工作的核心技术是Computer-Using Agent（CUA），这也是其名字的来源。CUA的出现，使得AI智能体不再被限制于传统的编程接口。通过模拟人类的操作方式，CUA能够立即与图形用户界面（GUI）进行互动，执行各种任务，这一突破被OpenAI官方称作AI与数字世界的“通用界面”。这标志着在迈向通用人工智能（AGI）的道路上，又一重大瓶颈的突破。

在一系列测试环境中，“Operator”的表现令业内人士惊叹。在OSWORLD上，其成功率高达38.1%，这一数据较之前的技术提升了近16%；而在WebArena，成功率更是达到了58.1%，性能提升了22%。尽管与人类的成功率（72.4%和78.2%）相比尚有差距，但在WebVoyager上的成功率已经高达惊人的87%，足以表明这一技术的潜力。

然而目前值得注意的是，“Operator”尚处于初步推广阶段，目前只有美国的Pro用户可以体验这一智能体。但OpenAI已经提前透漏，后续将会在ChatGPT中推出o3-mini版本，为更多用户提供体验的机会。针对Plus用户，OpenAI也将提供更多的使用配额，显示出其希望推动技术普及的雄心。

在的演示中，“Operator”承担了多个任务，如通过OpenTable预定餐厅。在收到指令后，它迅速自动生成命令，创建一个云端运行的浏览器操作环境。令人惊奇的是，即便OpenTable的默认地址是弗吉尼亚州，它依然能够实时调整为旧金山的位置，以满足用户的需求。

一个更具体的例子是用户希望购买鸡蛋、菠菜、鸡大腿和辣椒等食材。在用户将这些信息传达给“Operator”后，系统迅速识别图像并自动选定所需商店，并进行下单操作。这一过程展示了“Operator”如何利用视觉识别技术与语言理解能力相结合，实现端到端的购物体验。这一智能体能够通过不断捕捉屏幕截图和观察其操作影响，形成思维链，从而有效执行任务。

“Operator”的智能体功能并不止步于此。它能够灵活响应用户的直接指令，而在执行任务时遇到难题或阻碍时，也会自动尝试纠正并重新规划。用户在任何时候都可以迅速接管“Operator”的操作，这样的设计保证了用户能够保持对整个过程的控制，确保操作的精确与准确。

值得一提的是，OpenAI还为“Operator”预设了一系列安全功能。对于潜在的诈骗网站或可疑操作，系统会自动发出警报并停止操作，类似于现代防病毒软件的机制，这为用户的使用提供了额外的保护。

随着“Operator”的推出，OpenAI的研究团队终于实现了长久以来的愿景：一个能够无缝适配多个数字环境的智能体。其背后的CUA技术，不仅是多个领域研究的结晶，也是对未来人机交互方式的一次颠覆性创新。正如OpenAI总裁Greg所言：“2025年，就是智能体之年。”这一切都预示着，未来将会有更多类似“Operator”的智能体走进我们的生活，实现更深层次的人机合作。

OpenAI的“Operator”不仅代表着计算机技术的一次重大进步，更是我们迈向人工智能新时代的重要一步。随着时代的推移，我们可以期待，AI将在更广泛的层面上帮助我们完成各种数字任务，开启一个全新的人机交互时代。

OpenAI推出首个智能体“Operator”，打破AI与数字世界界限

精品推荐

相关文章