随着生成式人工智能的迅猛发展,文本生成图像(Text-to-Image,简称 T2I)软件作为重要的创意生产力工具,已广泛应用于艺术创作、广告设计和游戏开发等领域。该类软件能够根据自然语言描述自动生成视觉图像,极大地拓展了人类的创意表达空间。然而,尽管近年来 T2I 模型取得了显著进步,其在生成复杂或非现实场景时仍存在诸多问题,例如遗漏文本中的关键实体、生成结果缺乏真实感、文本与图像语义不一致等。由于 T2I 软件本质上具有跨模态特性,传统的软件测试方法难以直接适用;同时,缺乏可靠的测试预言(oracle)进一步加剧了测试复杂度,使其质量保障面临严峻挑战。
针对上述难题,学术界和工业界亟需一种专门面向 T2I 软件的系统化、自动化测试方法。现有研究大多依赖人工评估或仅针对单一模态的检测手段,难以全面验证跨模态语义一致性。为填补这一研究空白,南京大学软件工程与系统创新实验室(ISE Lab)顾思琦博士提出了 ACTesting —— 一种面向文生图软件的自动化跨模态测试方法。这也是首个明确为 T2I 软件设计的系统性测试框架。
ACTesting 以蜕变测试(Metamorphic Testing)为理论基础,有效应对测试预言缺失的问题。该方法通过引入实体—关系三元组,将跨模态语义一致性形式化定义为核心蜕变关系。在此基础上,研究者设计了三类受蜕变关系及适应性密度约束共同指导的变异算子,用于生成能揭示潜在错误的新输入文本。随后,系统根据输入文本生成图像,并检测文本与图像两种模态中抽取的实体—关系三元组是否保持一致,以验证蜕变关系是否被满足。借此,ACTesting 能够精确识别和定位 T2I 软件中的跨模态不一致性错误,为生成式多模态系统的质量保障提供了新的思路和技术路径。

实验结果表明,ACTesting 能够高效生成具有高错误揭示能力的测试用例。在针对五款主流 T2I 软件进行的大规模实证评估中,结果显示,与基线方法相比,ACTesting 生成的测试用例可使图像与原始文本之间的语义一致性降低最高达 20%,显著揭示了被测软件在跨模态生成过程中的潜在缺陷。进一步的消融实验验证了所设计变异算子的独立贡献与整体有效性,表明 ACTesting 能够以可靠且高效的方式识别文生图软件中的多类型错误,从而为跨模态生成系统的质量保障提供了有力支撑。
本研究作为首项专门针对文生图软件的自动化测试实证工作,成功填补了该领域的空白,为生成式AI软件的质量保障与工程实践提供了重要依据与工具支持。相关成果论文《ACTesting: Automated Cross-modal Testing Method of Text-to-Image Software》已被国际软件工程领域顶级期刊 ACM Transactions on Software Engineering and Methodology (TOSEM) 正式录用(CCF-A级期刊),南京大学为第一单位。论文已可通过ACM数字图书馆在线访问:https://dl.acm.org/doi/pdf/10.1145/3768581。欢迎对该研究工作感兴趣的学术同行来信交流:siqi.gu@smail.nju.edu.cn.
顾思琦博士生由房春荣副教授和陈振宇教授共同指导,主要研究领域为智能化软件测试,涵盖自动化单元测试生成与修复、多模态生成式智能软件的测试与评估等多个前沿方向。发表多篇SCI/EI论文,荣获2023年国家奖学金、2023年南京大学研究生标兵称号、2024年移动之光·数智创新奖学金、2025年博士生英才奖学金一等奖,主持2023年江苏省研究生科研与实践创新项目,取得2024年国家留学基金委博士联合培养奖学金并前往伦敦大学学院访问,师从计算机系Earl T. Barr教授。