中国科学技术大学&大湾区大学 | 基于图引导视频ViT的人脸反欺诈 (IEEE TIFS 2025) 展会快讯

研究动机

在人脸反欺诈（Face Anti-spoofing，FAS）研究中，一直以来，大多数研究工作集中研究对静态、光度维度的反欺骗特征的挖掘，比如纸张/照片打印攻击、电子设备视频回放攻击，它们和真实人脸的表面材料有较大的差别，或者是利用一些具有代表性的活性信号，rPPG、深度映射图等。但他们对动态、时间维度的反欺骗特征的挖掘尚浅。

比如一些高仿真度的3D面具打印攻击（具备深度信息和高保真材料），可能难以被检测出来。如下图所示，结合时空维度的反欺骗信息会更有利于鉴伪。但时间维度的反欺骗运动信息可能是微小的、不易察觉的。

本文提出的观点是通过集成静态维度的光度反欺骗信息和动态维度的运动反欺骗信息来增强人脸反欺骗系统对不同攻击类型的泛化能力，并且借助人脸landmark来辅助捕捉微小的人脸动态信息。

对于光度信息，我们继承前人的观点，即活性样本的光度应当具有高度一致性，欺骗样本由于其多样性，其光度只应在帧内具有一致性，为此提出光度一致性损失。对于人脸landmark，其可被视为一种时空图数据，我们通过引入时间注意力的Graphormer网络来捕捉其空间拓扑信息和时间微小运动信息。对于时间维度的反欺骗信息捕捉我们提出：1）一种新的时间注意力形式，Kronecker时间注意力，这种时间注意力具备了更广的时间感受野。2）利用人脸landmark的低语义运动信息对视觉分支的动态信息进行指导。如下图所示。

网络架构

G2V2former是一个双流网络，分别为视觉流分支和图流分支，两个分支拥有相同的层数，每一层都装配了空间注意力模块和Kronecker时间注意力模块。我们在视觉分支的视觉空间注意力中引入2D Inductive Bias，并在图注意力中引入Topology Inductive Bias。

训练被分为两个阶段。第一阶段，双流分别独立进行Masked content prediction范式的预训练。第二阶段针对人脸反欺骗任务进行微调，在第二个阶段中，我们利用图流的时间注意力对视觉流的时间注意进行引导（通过Scatter and Add操作）。

实验结果

我们在四个评估协议上进行了广泛的多模态跨域实验，我们的模型都表现出了较为先进的性能。

论文信息

该工作已被IEEE Transactions on Information Forensics & Security (TIFS) 接收。主要作者为中国科学技术大学杨靖懿、大湾区大学余梓彤（共同通讯作者）、中国科学技术大学李辉（共同通讯作者）、中山大学深圳操晓春等。

Jingyi Yang, Zitong Yu, Jia He, Xiuming Ni, Liepiao Zhang, Hui Li, Xiaochun Cao. G2V2former: Graph Guided Video Vision Transformer for Face Anti-Spoofing, IEEE TIFS 2025.

供稿：杨靖懿、余梓彤

义务编辑与校对：赵若宇博士