清华大学推出AutoDroid-V2 AI模型助力移动设备自动化提升效率与安全性

时间：2025-01-04 05:10

小编：小世评选

在移动设备使用日益普及的今天，如何提升用户的操作效率与数据安全性已成为一个关注的焦点。清华大学智能产业研究院（AIR）于2024年12月24日正式发布了其最新研究成果——AutoDroid-V2 AI模型。本次发布的论文详细介绍了该模型的设计理念、运行机制以及在实际应用中的效果，为移动设备自动化带来了新的发展机遇。

项目背景

近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的蓬勃发展，移动设备的自动化控制方式发生了显著变化。这些模型能够通过自然语言命令为用户提供复杂任务的解决方案，极大地简化了操作流程。目前，主流的移动设备自动化控制大多依赖于“逐步GUI智能体”（Step-wise GUI Agents），该技术通过动态决策、反思用户请求并持续监控GUI状态，逐步完成复杂任务。这种方法的缺陷在于对云端模型的高度依赖，这带来了隐私泄露的风险、用户数据流量的增加以及高昂的服务器维护成本，限制了其大规模的普及应用。

AutoDroid-V2的创新之处

清华大学推出的AutoDroid-V2模型，作为对传统自动化技术的一次重要升级，采用了一种全新的基于脚本的方法。它通过利用设备端的小型语言模型（SLM）生成多步骤脚本，一次性执行多个GUI操作，从而显著减少了对云端模型的依赖。与以往的逐步操作方式相比，AutoDroid-V2将用户指令快速转化为高效的执行脚本，而无需频繁地查询GUI状态，这不仅提升了执行效率，还降低了对网络连接的依赖，大幅减少了数据传输量。

构建高效的基础架构

AutoDroid-V2模型在上线之前，会在离线阶段构建详尽的应用程序文档。这些文档包括AI引导的GUI状态压缩、元素的XPath自动生成以及GUI依赖分析等内容，为后续的脚本生成打下了良好的基础。当用户提交任务请求后，本地的SLM模型生成的多步骤脚本可以直接通过特定域解释器进行执行，确保任务的可靠和高效。这种设计不仅保护了用户的隐私，还大幅降低了服务器端的运营成本，使得AutoDroid-V2具有了更大的推向市场的潜力。

顶尖性能表现

在性能方面，AutoDroid-V2经过广泛的基准测试。在对23款移动应用测试的226项任务中，模型的任务完成率较以往的基线模型（如AutoDroid、SeeClick、CogAgent及Mind2Web）提升了10.5%到51.7%，展现出强大的任务处理能力。在资源消耗方面，输入和输出token消耗分别减少至传统方法的43.5分之一和5.8分之一，而LLM推理延迟则降低至5.7到13.4分之一。这一系列指标证明了AutoDroid-V2在保证高效性的同时，能极大地节省资源。

跨模型测试

为了进一步验证AutoDroid-V2的有效性，研究团队开展了跨LLM模型的测试。成功率数据显示，AutoDroid-V2在多个大型语言模型（如Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B）上的表现一致，成功率介于44.6%和54.4%之间，反向冗余比更是高达90.5%到93.0%。这些数据不仅证实了该模型的稳定性，也进一步增强了它在实际应用中的可靠性。

未来展望

AutoDroid-V2的推出标志着清华大学在移动自动化领域又一次重要技术突破。随着技术的不断发展，用户对设备自动化的需求日益增长，AutoDroid-V2必将为未来的智能终端提供强有力的技术支撑。今后，研究团队还将继续优化模型的性能，探索更多应用场景，将这一创新成果推向更广阔的市场。

AutoDroid-V2通过高效的本地执行方式，显著提升了用户在移动设备上的操作效率与安全性，为智能设备的自动化进程带来了新的解决方案。清华大学智能产业研究院在此领域的探索，也为我们展现了未来智能科技发展的广阔前景。