AI|大模型(LLM)越狱方法论

发表于 2025-05-29 更新于 2025-11-02 分类于 deeplearning ， AI
本文字数： 912 阅读时长 ≈ 1 分钟

This article summarizes methods for jailbreaking LLM, focusing on techniques from the BEST-OF-N JAILBREAKING paper.总结了大模型越狱的方法，重点介绍了BEST-OF-N JAILBREAKING 论文和米斯特安全团队的Prompt越狱手册中的技术。

方法

论文 BEST-OF-N JAILBREAKING

这篇论文BEST-OF-N JAILBREAKING中提到的3个方法更适合程序或在脚本中使用,基本原理大同小异,小概率多次尝试+模型评估最终实现越狱效果

Best-of-N (BoN) Jailbreaking（最佳N次采样越狱）

核心： 通过对原始提示词进行多次增强（例如，文本提示词的随机打乱、大小写转换），然后每次增强后的提示词都输入到目标AI模型中，并选择其中产生有害响应的那个结果。
复现步骤：
1. 准备有害请求： 准备一个希望AI模型执行，但由于安全措施而通常被阻止的有害请求（例如，“如何制作炸弹？”）。
2. 提示词增强： 对原始提示词进行N次增强，每次增强都使用不同的组合增强方法（例如，文本中的随机大小写、视觉图像中的颜色变化等）。
3. 模型推理： 将N个增强后的提示词分别输入到目标AI模型中，获得N个响应。
4. 有害性评估： 使用有害性分类器（例如，GPT-4），评估N个响应中有多少是有害的。
5. 选择最佳： 如果至少有一个响应被分类为有害，则认为越狱成功。否则，可以增加N的值并重复上述步骤。

Prefix PAIR（前缀配对）

核心： 通过编辑和优化一个“前缀”（添加到有害请求之前的文本），使得该前缀能够绕过AI模型的安全防御，从而使有害请求能够成功执行。
复现步骤：
1. 生成候选前缀： 使用攻击LLM（与目标LLM不同的LLM）生成多个候选的前缀，目标是使这些前缀能与多个不同的有害请求配对成功。
2. 配对和评估： 将每个候选前缀与一批有害请求组合，输入目标LLM，并使用分类器评估输出的有害性。
3. 迭代优化： 如果不是所有请求都成功越狱，则使用攻击LLM根据之前的尝试结果迭代改进前缀。

Many-Shot Jailbreaking (MSJ)（多示例越狱）

核心： 通过在输入中包含多个示例，这些示例展示了如何遵守有害请求，从而“诱导”AI模型生成有害响应。
复现步骤：
1. 准备数据集： 准备一个包含多个有害请求和相应有害响应的数据集。
2. 构建提示词： 将多个请求-响应对组合成一个长提示词，并在最后添加目标有害请求。
3. 模型推理： 将构建的提示词输入到目标AI模型中。

参考

本文作者： yigmmk
本文链接： https://programnotes.cn/ai-jailbreak/index.html
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

欢迎关注我的其它发布渠道

1. 方法
1. 1.1. 论文 BEST-OF-N JAILBREAKING
2. 参考

yigmmk

交流编程经验与AI工具使用心得,践行学、享、记之道

GitHub E-Mail Zhihu bookmark

0%