「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？_AI阅读总结

包阅导读总结

1. 大模型、安全对齐、越狱攻击、Decoupled Refusal Training、DeRTa

2. 香港中文大学（深圳）贺品嘉团队和腾讯 AI Lab 提出 DeRTa 方法，旨在解决大模型易受越狱攻击的问题，提升安全性且不影响有用性，实验证明该方法有效。

– 背景

– 机器之心 AIxiv 专栏接收报道众多内容，促进学术交流。

– 大模型虽智能但安全性重要，现有模型仍易受越狱攻击。

– 研究

– 发现：安全微调数据存在拒绝位置偏差，阻碍模型后续位置保持安全。

– 方法：提出解耦拒绝训练（DeRTa），包括带有有害前缀的最大似然估计（MLE）和强化过渡优化（RTO）两个新颖设计。

– 实验

– 在 LLaMA3 和 Mistral 上进行，涵盖六种越狱攻击方式。

– 结果显示显著提升安全性，不降低有用性，对不同模型尺寸效果好。

– 结论

– 大模型安全任重道远，该研究提供探索和思考及有价值见解和基线方法。

思维导图：

文章地址：https://www.jiqizhixin.com/articles/2024-07-30

文章来源：jiqizhixin.com

作者：机器之心

发布时间：2024/7/30 2:55

语言：中文

总字数：2121字

预计阅读时间：9分钟

评分：89分

标签：大模型安全,安全微调,越狱攻击,模型鲁棒性,Decoupled Refusal Training (DeRTa)

以下为原文内容

本内容来源于用户推荐转载，旨在分享知识与观点，如有侵权请联系删除联系邮箱 media@ilingban.com

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文的第一作者是香港中文大学（深圳）数据科学学院二年级博士生袁尤良，指导老师为香港中文大学（深圳）数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是袁尤良在腾讯AI Lab实习时完成。贺品嘉团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。

大型语言模型（LLM）展现出了令人印象深刻的智能水平。因此，确保其安全性显得至关重要。已有研究提出了各种策略，以使 LLM 与人类伦理道德对齐。然而，当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击，并被用于恶意用途。

为什么哪怕经过了大量的安全对齐，这些模型依然容易被越狱？应该如何进一步把安全对齐做深（deep）？

围绕这两个问题，香港中文大学（深圳）贺品嘉团队和腾讯AI Lab实验室联合提出了 Decoupled Refusal Training (DeRTa)，一个简单新颖的安全微调方法，可以赋予大语言模型「迷途知返」的能力，从而在不影响模型有用性（helpfulness）的同时，大幅提升其安全性（safety）。

论文标题：Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
论文地址：https://arxiv.org/abs/2407.09121
开源代码：https://github.com/RobustNLP/DeRTa

研究者发现，安全微调数据中存在拒绝位置偏差（refusal position bias），即模型表示拒绝回答的行为，总是出现在回复的开头，这可能阻碍了模型在后续位置处保持安全的能力。为了验证这一猜测，研究者使用越狱样本测试 LLaMA3-8B 和 LLaMA3-70B，结果显示几乎所有（99.5%）被模型成功拒绝的越狱样本，拒绝性单词（如 Sorry）都出现在前五个单词中。一旦开头没有被拒绝，模型将很难在后续位置表现出安全的行为。

为了解决这一问题，该论文提出了解耦拒绝训练（DeRTa）。DeRTa 包括两个新颖的设计：

带有有害前缀的最大似然估计（MLE）：将一段随机长度的有害回复（harmful response）添加到安全回复的开头，可以训练 LLMs 在任何位置拒绝回复，而不仅仅是在开始处。此外，添加有害前缀提供了额外的上下文，显著提高了 LLM 识别和避免不安全内容的能力。
强化过渡优化（RTO）：虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态，但每个训练样本仅提供单次过渡，可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题，研究者引入了一个辅助训练目标 RTO，让模型在有害序列的任意位置，都预测下一个单词为「Sorry」，从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。

上述设计确保了模型防御机制的全面增强，允许模型学会「迷途知返」的行为。

为了验证方法的效果，研究者在两个知名的模型家族 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验，涵盖六种不同的越狱攻击方式。结果显示：

DeRTa 显著提升了安全性，同时不会降低有用性。
DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。

为了提供更多有价值的见解，研究者主要基于 LLaMA3-70B，对 DeRTa 的工作原理进行了更细致的分析，包括：

1. 案例研究，DeRTa 如何影响拒绝性单词位置分布

3. 分析实验一，与 DPO 进行比较，探究训练数据中的有害回复所发挥的作用

4. 分析实验二，DeRTa 在不同模型尺寸的适用性

首先，论文给出的示例具体地展示了 DeRTa 模型的「迷途知返」能力：即使在已经输出了一部分不安全文本的情况下，模型也能有效过渡到安全状态。此外，作者给出了在不同的方法下，模型输出的拒绝性单词的位置分布。可以看出，使用了 RTO 的模型，可以在显著靠后的位置，仍然具有保持安全的能力。

在消融实验中，实验结果显示，仅仅使用有害前缀策略不足以应对各种形式的攻击。例如，该策略对于防御 CodeAttack 这类较为复杂的攻击几乎没有帮助。该攻击通过让模型补全代码来越狱，模型在前面位置的回复中，会进行无恶意的代码补全，到一定位置处，模型将会开始一边补全代码一边生成恶意回复。

对于有害前缀策略的这些不足，RTO 可以有效弥补，从而使模型展现出很高的安全性，这说明 RTO 对于加强（赋予）模型在任何位置拒绝的能力至关重要。

RTO 的成功很自然带来一个问题：模型安全性的提升，是否可以归功于训练中整合了有害回复，而不是建模了 token 级别的安全过渡？为了回答这一问题，作者将 DeRTa 与 DPO 进行了比较。该实验进一步验证了，DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息，而是得益于其对 token 级别安全过渡的直接建模。

此外，该论文也展示了在不同尺寸的模型上的表现，包括 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B)，结果显示该方法对不同大小的模型均有很好的效果。

大模型安全依然任重道远。如何突破表面对齐，将安全做深入是一件很有挑战的事情。研究者在此给出了一些探索和思考，希望可以为这一方面的研究，提供一些有价值的见解和基线方法。

分类

「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？_AI阅读总结 — 包阅AI

以下为原文内容