方法
论文 BEST-OF-N JAILBREAKING
这篇论文BEST-OF-N JAILBREAKING中提到的3个方法更适合程序或在脚本中使用,基本原理大同小异,小概率多次尝试+模型评估最终实现越狱效果
- Best-of-N (BoN) Jailbreaking(最佳N次采样越狱)
- 核心: 通过对原始提示词进行多次增强(例如,文本提示词的随机打乱、大小写转换),然后每次增强后的提示词都输入到目标AI模型中,并选择其中产生有害响应的那个结果。
- 复现步骤:
- 准备有害请求: 准备一个希望AI模型执行,但由于安全措施而通常被阻止的有害请求(例如,“如何制作炸弹?”)。
- 提示词增强: 对原始提示词进行N次增强,每次增强都使用不同的组合增强方法(例如,文本中的随机大小写、视觉图像中的颜色变化等)。
- 模型推理: 将N个增强后的提示词分别输入到目标AI模型中,获得N个响应。
- 有害性评估: 使用有害性分类器(例如,GPT-4),评估N个响应中有多少是有害的。
- 选择最佳: 如果至少有一个响应被分类为有害,则认为越狱成功。否则,可以增加N的值并重复上述步骤。
- Prefix PAIR(前缀配对)
- 核心: 通过编辑和优化一个“前缀”(添加到有害请求之前的文本),使得该前缀能够绕过AI模型的安全防御,从而使有害请求能够成功执行。
- 复现步骤:
- 生成候选前缀: 使用攻击LLM(与目标LLM不同的LLM)生成多个候选的前缀,目标是使这些前缀能与多个不同的有害请求配对成功。
- 配对和评估: 将每个候选前缀与一批有害请求组合,输入目标LLM,并使用分类器评估输出的有害性。
- 迭代优化: 如果不是所有请求都成功越狱,则使用攻击LLM根据之前的尝试结果迭代改进前缀。
- Many-Shot Jailbreaking (MSJ)(多示例越狱)
- 核心: 通过在输入中包含多个示例,这些示例展示了如何遵守有害请求,从而“诱导”AI模型生成有害响应。
- 复现步骤:
- 准备数据集: 准备一个包含多个有害请求和相应有害响应的数据集。
- 构建提示词: 将多个请求-响应对组合成一个长提示词,并在最后添加目标有害请求。
- 模型推理: 将构建的提示词输入到目标AI模型中。
Related Issues not found
Please contact @yiGmMk to initialize the comment