近日,天津师范大学计算机与信息工程学院冯为嘉副教授团队在人工智能领域顶级会议IJCAI 2025上发表题为《Active Multimodal Distillation for Few-shot Action Recognition》的论文。该会议为中国计算机学会CCF A类会议。
针对现有少样本动作识别方法主要依赖单一模态数据,在复杂动作上性能受限,对模态可靠性缺乏动态评估,论文提出了一种基于主动推理的多模态少样本动作识别框架,通过动态识别样本级可靠模态、双向知识蒸馏和自适应融合,显著提升了识别性能。所提出的模型首先通过一个主动样本推理模块,利用变分自由能动态评估并选择每个查询样本的最可靠模态;其次每一个样本会通过有一个主动互蒸馏模块,将可靠模态的任务知识双向迁移至不可靠模态以增强其表征;最后自适应多模态推理模块根据样本的模态置信度加权融合输出样本的检测结果。实验结果表明,所提出的模型在Kinetics-400、SSv2、HMDB51和UCF101四个数据集上,多模态信息的利用效率和识别精度,显著超越STRM、TRX、AFMAR等方法。

计算机与信息工程学院边缘智能团队冯为嘉副教授为该文章第一作者,天津师范大学为第一完成单位。此项研究获得了国家自然科学基金面上项目61602345、62002263、62302333,国家重点研发计划项目2019YFB2101900,天开高教园企业研发专项23YFZXYC00046及2024年中国高校产学研创新基金2024HY015的支持。
论文链接 https://arxiv.org/pdf/2506.13322