首个 VR 端 3D 角色扮演 AI SOLAMI 发布,沉浸式互动已成现实
时间:2024-12-13 13:00
小编:小世评选
在不断发展的科技领域,虚拟现实(VR)技术已经赢得了广泛的关注,尤其是在游戏和交互体验方面。最近,南洋理工大学发布了世界首个 VR 端 3D 角色扮演 AI——SOLAMI,这一突破性的成果使得用户与虚拟角色的互动进入了一个全新的时代。您不仅可以与这些 AI 角色进行简单的对话,还能在沉浸式环境中体验肢体语言和情感交流,仿佛与真实的朋友在互动。
SOLAMI的诞生背后,汇聚了众多渴望深入探讨虚拟交流的用户反馈。尽管传统的 AI 角色扮演应用(如 C.AI 和 Talkie)已经取得了一定的成功,但许多用户都希望能够在 VR 环境下与这些角色进行更为丰富的交流。SOLAMI 正是为了满足这一需求而创建的,它在此方面的创新之处在于融合了多种交流模态,包括声音、肢体动作和面部表情。
研究背景与动机
在社交互动中,沉浸感与互动质量是提升用户体验的关键因素。心理学研究指出,面对面的交流不仅仅依赖于语言,更包括身体语言、面部表情等多种非语言信息。现有的 AI 角色较为单一,主要使用文本或语音交流,缺乏更深层次的互动能力。因此,SOLAMI 的研究团队开始探索如何通过 3D 角色与用户建立更真实的社交联系。
构建一种能够理解与回应用户行为的 3D 角色,不仅是技术挑战,也是数据稀缺性的问题。通常,收集人类与虚拟角色深度交互的数据需要耗费高昂的成本与复杂的设备。因此,团队需要创造性地利用现有的多模态数据,进行模型的训练。
SOLAMI 的工作原理
SOLAMI 的基础是其新颖的 Social VLA(视觉-语言-行为)模型。该模型通过用户的语音输入和肢体动作实时解析用户信息,并以此为基础生成相应的角色反应。用户输入通过 Motion Tokenizer 和 Speech Tokenizer 进行编码,最终由 LLM(大型语言模型)自回归输出角色的行为和语音。通过这种方式,SOLAMI 能够像人类一样解读和模仿用户的情感和动作。
这个模型的构建经历了多阶段的训练过程,是多任务预训练,训练包含了动作理解、语音生成等六个关键任务,旨在将文本、语音和动作之间的关系有效联系起来。随后,通过指令微调,模型进一步提升在多轮多模态对话中的表现,使其能够基于角色背景和用户输入快速做出反应。
数据收集与合成
由于与虚拟角色互动的数据极为稀缺,研究团队开发了一种合成数据管线。他们从已有的动作-文本数据集中提取信息,创建了一个大型的带语义标注的动作库。通过构建剧本,将角色动作与对应台词结合起来,利用声音克隆技术,为这些角色添上独特的“声音”。这一系列合成过程使得模型能够以相对低的成本获取用于训练的数据。
VR 交互系统
SOLAMI 的 VR 交互系统基于 Oculus Quest 3 开发,旨在为用户提供一个全面的沉浸式体验。用户在佩戴 VR 设备的同时,系统能够实时跟踪用户的声音和身体动作,借助 SOLAMI 模型生成相应角色的语音、肢体动作及面部表情。在测试实验中,SOLAMI 的表现明显优于传统语音交互和 LLM-Agent 结构的数字角色,用户们反馈的沉浸感和互动质量均得到了提升。
实验结果与
通过实验的定量与定性分析表明,SOLAMI 在动作质量与语音表现上相较于其他对比模型得到了显著的提升。用户体验方面,SOLAMI 由于加入了动态肢体语言与角色反应,用户普遍认为其提供的互动体验远超以往的纯语音方式。
而言,SOLAMI 不仅仅是一个技术创新的代表,它标志着虚拟现实互动的一个全新里程碑。研究人员十分乐观,并指出的探索方向包括输入输出模态的进一步优化、数据收集方法的创新、情感变化的灵敏反应等。随着 SOLAMI 的推出,虚拟现实与人工智能的结合正迎来新的发展机遇,未来或将带来更为丰富的社交体验,让我们拭目以待。