37000威尼斯蒋智威老师课题组在大模型可控生成技术方面取得新进展:提出一种灵活的激活引导方法,在无需微调大模型的情况下动态地决定引导的时机和强度来实现大模型的可控生成。

Steering When Necessary: Flexible Steering Large Language Models with Backtracking. 大语言模型激活引导技术因其可以直接修改输出的激活值且无需微调模型受到了广泛关注。此前的方法往往无法判断是否需要干预、如何准确估计干预强度,以及如何动态决定干预时机。为此,该研究工作提出了一种灵活的激活引导方法,通过在生成的每一步中追踪大语言模型中间状态在指定行为上的偏离程度,动态确定干预的强度与时机。具体而言,当偏离程度大于预设阈值时,该方法将对大模型输出的激活值施加与偏离程度成正比的干预。为避免干预时机太晚,该工作进一步提出了回溯机制,将已经偏离的生成内容引导回正确的方向。实验结果表明,该方法能够有效提升大语言模型的输出质量,并取得当前最先进的性能。

该项研究工作已被The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)(CCF-A类会议)录用。欢迎对该研究工作感兴趣的学术同行来信交流:jzw@nju.edu.cn。