近日,山东师范大学信息科学与工程学院两篇研究论文《Giving Text More Imagination Space for Image-text Matching》和《Prototype-guided Knowledge Transfer for Federated Unsupervised Cross-modal Hashing》被CCF A类会议ACM Multimedia 2023录用。论文第一作者分别为在读博士生董新锋和硕士生李京智,指导教师分别为韩军伟教授、张化祥教授和朱磊教授,山东师范大学为第一作者单位。此两项研究成果的取得,标志着学校在计算机人工智能与多媒体领域的持续创新与进步。
论文《Giving Text More Imagination Space for Image-text Matching》提出了一种在弱对齐场景下基于视觉-语言预训练模型的想象网络,用于缩小跨模态异质性差距和平衡不同模态间信息量差异。弱对齐场景假设文本包含更抽象信息,且文本中的实体数量总是少于图像中的目标数量。现有图像-文本匹配算法侧重于在强对齐假设下弥合模态间的异质性鸿沟并将特征映射到公共空间,这些方法在弱对齐场景下的性能并不理想。该方法采用双管齐下策略,一方面通过想象网络利用强化学习策略增强文本模态的语义信息,另一方面设计了动作细化策略约束想象网络的自由度和发散性。实验结果表明,基于CLIP和BLIP两个预训练模型所提出的框架具有优越性和通用性。论文《Prototype-guided Knowledge Transfer for Federated Unsupervised Cross-modal Hashing》提出了一种基于原型迁移的联邦跨模态检索方法,用于解决分布式场景下进行跨模态检索模型训练中的隐私泄露问题,实现高效的跨模态语义传递。该方法通过为不同客户端探索统一的全局原型来保护本地私有数据,利用全局原型指导局部跨模态哈希学习,促进特征空间对齐,缓解局部多模态数据分布差异引起的模型偏差,提高检索精度。此外,论文还提出了一种自适应跨模态知识蒸馏策略,将有价值的语义知识从模态特定的全局模型迁移到局部原型学习过程,从而降低局部原型学习的过拟合风险。实验验证了方法的有效性。
ACM Multimedia被中国计算机学会(CCF)列为A类会议。根据CCF分类标准,A类会议指国际上极少数的顶级学术会议。CCF A类会议论文是国务院学位评定委员会指定的计算机科学与技术一级学科博士点评估必须指标之一,在计算机科学与技术学科占有非常重要地位,受到国内外一流大学和一流学科的高度重视。多媒体研究的重点是整合分析不同数据形式提供的多种视角,包括图像、文本、视频、音乐和传感器数据等。ACM Multimedia自1993年以来每年举办一次,它一直将学术界和业界的研究人员和实践者聚集在一起,介绍创新的多媒体领域研究成果,并讨论最新的学术及应用进展。据悉,2023年ACM Multimedia将于10月29日至11月2日在加拿大渥太华召开。(编辑:贾丙波)
头条
微信公众号