Abstract:
图像分类算法的性能受限于视觉信息的多样性和背景噪声的影响,现有研究通常采用跨模态约束或异构特征对齐算法学习可判别力强的视觉表征.然而,模态异构带来的特征分布差异等问题限制了视觉表征的有效学习.针对该问题,本文提出一种基于跨模态语义信息推理和融合的图像分类框架 (CMIF),引入图像语义描述及统计先验知识作为特权信息,使用特权信息学习范式在模型训练阶段指导图像特征从视觉空间向语义空间映射,提出类感知的信息选择算法 (CIS)学习图像的跨模态增强表征.针对表征学习中的异构特征差异性问题,使用部分异构对齐算法 (PHA)实现视觉特征与特权信息中提取的语义特征的跨模态对齐.为进一步在语义空间中抑制视觉噪声带来的干扰,提出基于图融合的CIS算法选取重构语义表征中的关键信息,从而形成对视觉预测信息的有效补充.在跨模态分类数据集VireoFood-172和NUS-WIDE上的实验表明,CMIF能够学习鲁棒的图像语义特征,并且能够作为通用框架在基于卷积的ResNet-50和基于Transform架构的ViT图像分类模型上取得稳定的性能提升.