近日,复旦大学工程与应用技术研究院(简称工研院)智能感知与无人系统实验室(简称IPASS)撰写的题为《Context De-confounded Emotion Recognition》的学术论文被计算机视觉领域顶会CVPR2023录用,张立华教授为通讯作者,2020级直博生杨鼎康为第一作者。
论文简介
在现实世界中,丰富的上下文语境为理解包括情感表现在内的人类意图提供了关键线索。当前的研究主要聚焦于设计复杂的结构或策略以期望学习有益的上下文表征。然而,一个长期被忽略的问题是:人类对世界的观测具有潜在的主观性和局限性,导致人工注释的真实数据集中通常存在情感状态在不同上下文中的分布差距,继而引发严重的上下文偏见,显著地限制了现有方法的性能。
图1:上下文驱动的因果图
为了缓解上下文感知模型因偏见困扰所造成的性能瓶颈,该论文受人类的因果直觉思维启发,从因果推断的视角来构造结构化的因果图框架,以审视不同变量之间的因果关系。通过诊断定制化的因果图,该论文识别出上下文偏见本质上是一种预期之外的混杂因子,其导致大多数模型依赖传统的似然估计来学习特定的上下文表征和标签语义之间的虚假相关性,而非变量之间真正的因果效应。
图2:上下文去混淆训练的通用流程
为此,该研究借鉴因果之梯第二层级中的因果干预思想,基于后门调整理论提出一种上下文因果干预模块(Contextual Causal Intervention Module, CCIM)以解耦偏见的有害效应和迫使模型执行上下文去混淆训练。CCIM作为一种模型无关、轻插入式的组件,可以轻易地集成到现有的上下文感知方法中,以助力模型近似地捕获变量之间的因果效应和获得显著的性能增益。作为一把因果去偏武器,CCIM可以被应用到多样的上下文感知任务中以缓解不均衡的视觉表征所造成的预测偏差,例如场景上下文感知的情感识别:
图3:相比于vanilla的SOTA模型(左),基于CCIM的版本(右)有效改进了情感预测结果
以及驾舱上下文感知的驾驶者监控:
图4:相比于vanilla的SOTA模型(左),基于CCIM的版本(右)纠正了驾驶者行为的预测偏差
依托IPASS实验室的相关技术积累与项目资源,本文作者致力于研究因果干预和反事实分析等因果推断的关键理论,推动情感计算、多模态学习以及自动驾驶领域相关技术的去偏应用和落地部署。
延伸阅读
智能感知与无人系统实验室(IPASS)隶属于复旦大学工程与应用技术研究院智能机器人研究院,近年来一直在机器直觉、人机物融合智能等新一代人工智能理论、脑机解码与脑启发人工智智能感知与人机交互、计算机视觉与数字孪生、行为识别和情感分析、智能芯片与智能硬件,以及智能机器人、智能网联汽车、智慧医疗等领域开展交叉创新研究,相关学术成果发表在Nature主刊和中国科学等国内外顶级期刊与国际会议。
CVPR(IEEE/CVF Computer Vision and Pattern Recognition)是世界范围内计算机视觉与模式识别领域的重要盛会。该会议是人工智能领域中CCF-A类推荐的顶级国际会议,每年举办一次。
(转载自复旦大学工研院)