中国移动与南京大学联合研发高保真2D数字人技术 具备情感表达能力
时间:2024-12-13 14:40
小编:小世评选
近日,中国移动宣布其与南京大学的研究团队达成合作,共同研发一项革命性的高保真2D数字人技术。该技术不仅能够在视觉上逼真地呈现人物形象,还具备情感表达能力,为未来的智能客服、教育和广告营销等多个应用场景带来了全新的可能性。
作为全球用户规模最大的通信运营商,中国移动在为数以亿计的用户提供服务时,面临着巨大的运营成本压力。虽然智能语音客服系统的普及在一定程度上降低了人力成本,但其在用户体验上的不足始终存在。与传统人工客服相比,语音客服在处理复杂问题、展现细腻的情感以及提供个性化服务等方面仍显不足。因此,中国移动的九天视觉团队与南京大学的邰颖团队,决心联手研发这一新技术,以解决当前客服系统中的种种痛点。
技术突破与创新
根据中国移动官方介绍,该2D数字人的说话驱动系统的主要功能是根据用户提供的目标人物的照片或视频,以及任意段音频,生成与音频完美同步的说话视频流。这一过程要求生成的人物在逼真度、表情的自然性及实时性上都极为突出。为了实现这些目标,研发团队在技术攻坚和方案创新上做出了以下努力:
1. 实时性能:与传统数字人技术不同,该系统在实时播报的口型生成技术方面达到了学术界的领先水平。实时性是数字形象应用场景中的核心需求,只有在高效处理的基础上,才能保证观众的沉浸体验。
2. 效果提升:通过设计二阶段学习框架,研发团队将数字人说话驱动的复杂过程进行了拆解。这种方法不仅降低了学习的复杂度,也大幅提升了生成效果,使得生成的数字人形象更为生动和自然。
3. 情绪表达:在此项目中,情绪引导学习模块被加入到系统中。这一创新让生成的数字人能够精准表达多种人文情感,例如高兴、悲伤、惊讶等,使得用户体验更为丰富和真实。
应用案例与前景
这一高保真2D数字人技术的应用前景广阔。在智能客服领域,该技术的引入有望改变传统客服的服用模式,提供更具人性化的回应,帮助用户更好地解决问题,并提升用户满意度。在教育方面,数字人能够作为虚拟讲师,为学生提供生动形象的教学,增强学习体验。该技术在广告营销中的应用可以使品牌宣传更具感染力,通过具备情感表达的数字人,吸引用户的注意力,增强品牌形象。
中国移动的官方数据还显示,在技术评测方面,该数字人生成系统达到了30 FPS的实时生成性能,能够有效处理并表达高兴、悲伤等多达七种主流情绪的变化。同时,在评测集VoxCeleb的指标中,该技术的口型准确性(LMD)达到了4.3,生成自然度的FID达到了11.1,这些数据不仅验证了技术的先进性与有效性,也为后续的商业化应用奠定了坚实的基础。
通过此次与南京大学的合作,中国移动进一步巩固了其在数字智能技术研发上的领军地位。高保真2D数字人技术的开发标志着通信行业向智能化、个性化服务迈出了重要一步。这一技术不仅能有效降低创作门槛,提升视觉质量,还为未来一系列应用场景带来了创新的可能性。
随着技术的不断进步和优化,数字人的潜力还将不断被发掘。未来,我们有理由期待,这一技术会在更多领域中发挥其重要作用,推动整个社会向更为智能、便捷的方向发展。中国移动与南京大学的合作将成为科技赋能用户体验的典范,也为整个行业的发展注入了新动力。