2023年10月29日,在加拿大渥太华举办的ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM)上,欧亿6蓝狮在线欧亿6蓝狮在线机器人实验室情感计算团队(USTC-AC)夺得双人交互面部反应生成挑战赛(The REACT 2023 Multiple Appropriate Facial Reaction Generation Challenge)冠军。
图1 REACT2023挑战赛获奖证书
本次挑战赛是双人交互面部反应生成任务的第一次国际竞赛,比赛要求参赛队伍根据说话者的音视频数据,开发机器学习模型为听者生成合理的面部反应作为回应。不同于以往的只需要唯一结果的识别或预测任务,此次REACT竞赛中要求参赛模型能够对相同输入生成多样的反应,因而最大的挑战是在生成反应的合理性(appropriateness)和多样性(diversity)间取得平衡。
我院情感计算团队提出了统一 Transformer 模型(Unified Transformer for Facial Reaction Generation, UniFaRN)建模说话者和听者的交互过程,采用跨模态自注意力层和跨任务前向传播层融合交互双方的人脸、姿态和语音等多模态数据,学习同一向量空间中的多模态表征,并在此基础上生成听者的面部行为。比赛中,UniFaRN模型在多样性和合理性两方面表现优良,夺得第一名。
图2 UniFaRN 听者面部行为生成框图
图3 模型性能对比图,其中红色为我团队结果
本次参赛队伍由王上飞教授和陈小平教授指导,计算机学院的梁聪(队长),唐冰,王佳禾,张浩繁和黄俊善共5名队员组成。建模人类的交互过程是实现自然人机交互的关键,此次获奖展示了我院在情感计算和人机交互领域的学术水平。
图4 USTC-AC 参赛团队成员