编程笔记

lifelong learning & practice makes perfect

AI|大模型(LLM)越狱方法论

方法

越狱方法

论文 BEST-OF-N JAILBREAKING

这篇论文BEST-OF-N JAILBREAKING中提到的3个方法更适合程序或在脚本中使用,基本原理大同小异,小概率多次尝试+模型评估最终实现越狱效果


  1. Best-of-N (BoN) Jailbreaking(最佳N次采样越狱)
  • 核心: 通过对原始提示词进行多次增强(例如,文本提示词的随机打乱、大小写转换),然后每次增强后的提示词都输入到目标AI模型中,并选择其中产生有害响应的那个结果。
  • 复现步骤:
    1. 准备有害请求: 准备一个希望AI模型执行,但由于安全措施而通常被阻止的有害请求(例如,“如何制作炸弹?”)。
    2. 提示词增强: 对原始提示词进行N次增强,每次增强都使用不同的组合增强方法(例如,文本中的随机大小写、视觉图像中的颜色变化等)。
    3. 模型推理: 将N个增强后的提示词分别输入到目标AI模型中,获得N个响应。
    4. 有害性评估: 使用有害性分类器(例如,GPT-4),评估N个响应中有多少是有害的。
    5. 选择最佳: 如果至少有一个响应被分类为有害,则认为越狱成功。否则,可以增加N的值并重复上述步骤。

  1. Prefix PAIR(前缀配对)
  • 核心: 通过编辑和优化一个“前缀”(添加到有害请求之前的文本),使得该前缀能够绕过AI模型的安全防御,从而使有害请求能够成功执行。
  • 复现步骤:
    1. 生成候选前缀: 使用攻击LLM(与目标LLM不同的LLM)生成多个候选的前缀,目标是使这些前缀能与多个不同的有害请求配对成功。
    2. 配对和评估: 将每个候选前缀与一批有害请求组合,输入目标LLM,并使用分类器评估输出的有害性。
    3. 迭代优化: 如果不是所有请求都成功越狱,则使用攻击LLM根据之前的尝试结果迭代改进前缀。

  1. Many-Shot Jailbreaking (MSJ)(多示例越狱)
  • 核心: 通过在输入中包含多个示例,这些示例展示了如何遵守有害请求,从而“诱导”AI模型生成有害响应。
  • 复现步骤:
    1. 准备数据集: 准备一个包含多个有害请求和相应有害响应的数据集。
    2. 构建提示词: 将多个请求-响应对组合成一个长提示词,并在最后添加目标有害请求。
    3. 模型推理: 将构建的提示词输入到目标AI模型中。

参考

欢迎关注我的其它发布渠道

Related Issues not found

Please contact @yiGmMk to initialize the comment