37000威尼斯殷亚凤老师课题组近期在手语翻译领域取得新进展:提出了一种无需文本监督的手语骨干网络预训练策略,用于提升无标注词情况下手语翻译任务的性能,旨在为聋人提供更好的沟通和交流服务。
Learning Effective Sign Features without Text for Gloss-free Sign Language Translation. 现有的手语翻译模型通常依赖手语标注词对骨干网络进行预训练,从而为翻译模型提供细粒度的手语特征表示,以保障翻译性能。然而,手语标注词获取成本高且难以规模化,近年来的研究工作逐渐尝试借助文本信息进行预训练,但这类方法仍然依赖文本标注,难以利用大规模无标注手语视频数据,限制了模型的可扩展性与泛化能力。针对上述问题,该研究工作提出了一个关键问题:现有自监督学习方法能否直接应用于手语场景,在完全摆脱文本标注的情况下,学习出能够有效支持下游无标注词情况下手语翻译任务的特征表示?为此,该研究工作提出了SignDINO,一种简洁而高效的 “手语感知型”自监督预训练框架,旨在实现两个目标:(1)将预训练过程与手语标注词及文本标注完全解耦,仅依赖手语视频帧进行训练;(2)在推理阶段仅需输入全局视频帧,从而提升模型的实用性与效率。进一步分析发现,直接应用现有自监督方法在手语任务上的效果往往有限,主要原因在于手语理解依赖大量细粒度的动作模式和判别性线索,而这些关键信息通常集中在局部区域(如手部和面部)。为解决这一问题,SignDINO引入“教师-学生”架构:教师模型接收完整的全局手语视频帧,而学生模型则通过学习掩码后的局部视图(仅保留手部与面部区域)进行训练。该设计促使模型学习局部判别性信息推断全局语义,从而使教师模型在推理阶段仅依赖全局视图即可提取高质量的手语表征。在多个公开手语数据集上的大量实验结果表明,SignDINO在无需任何文本监督的情况下,依然能够取得具有竞争力的性能表现,为无标注词手语翻译提供了一种高效可行的新范式。

该项研究工作已被The IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR 2026,CCF-A类会议)录用。欢迎对该研究工作感兴趣的学术同行来信交流:yafeng@nju.edu.cn.