大语言模型越狱攻击 模型、根因及其攻防演化.pdf

大语言模型越狱攻击 模型、根因及其攻防演化.pdf
本文对大语言模型的越狱攻击进行了全面评述,探讨了其定义、起源、攻防演化以及未来研究方向。 **越狱攻击的定义与形式化模型:** 本文从方法、对象、目标三个要素出发,将越狱攻击定义为:通过设计提示、操纵模型或其他手段,有意规避语言模型中对齐等安全保护机制,最终诱导语言模型对有害问题进行有效回复的行为。通过形式化模型清晰地界定了越狱攻击的范围和特征,区分了无差别应答、安全保护与越狱攻击。 **越狱攻击的起源与根因:** 越狱攻击的产生与大语言模型的发展密不可分,NLP的发展经历了从PLM到LLM的演变,而上下文学习和对齐等技术在推动LLM发展的过程中扮演了重要角色,同时也被攻击者利用来实施越狱攻击。社区对模型安全性的理解也在转变,从早期研究的毒性逐渐转向无害性,强调价值观在人工智能发展中的重要性。文章归结于模型的服务属性与价值观的不匹配是越狱攻击产生的根本原因。 **攻防演化:** 文章梳理了越狱攻击和越狱防御,并从攻防博弈的角度审视越狱攻防的演化。攻击方法从提示越狱扩展至操纵模型参数实施越狱,包括超参数调整、微调等;从绕过对齐形成的安全机制扩展至绕过模型内部限制和外部安全防护,包括通过外部工具间接实施的越狱攻击。防御策略涵盖安全性训练、红队测试、输入侧防御、安全性推理以及输出侧防御。 同时基于改写策略以及控制策略对现有越狱攻击方法做了细致的分类,共5大类16小类。 并且从同源性以及竞争两个方面讨论了攻击技术与防御技术之间的关系。 此外,本文还整理了现有的评价指标,对现有攻击方法效果评估对比。 **未来展望与挑战:** 文章提出了未来研究方向的展望,认为越狱攻击呈现自动化和可转移的趋势,强调解决模型可解释性的壁垒,面临跨场景安全性泛化挑战,并且兼顾防护成本与效益的平衡是重要议题。
在线阅读 下载完整报告 | 2.22 MB | 36页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告