微软开源了一套完整的 AI 对抗性安全训练体系:AI Red Teaming Playground Labs,帮助我们更好地学习 AI 安全测试。
这套实验室包含 12 个渐进式挑战,涵盖提示注入、元提示提取、多轮攻击等核心 AI 攻击技术,并基于微软 Chat Copilot 构建真实测试环境。
GitHub: https://github.com/microsoft/AI-Red-Teaming-Playground-Labs
主要内容:
- 凭据窃取挑战,学习通过社会工程学获取敏感信息;
- 元提示提取技术,掌握从 AI 系统中挖掘隐藏指令的方法;
- Crescendo 多轮攻击,练习绕过 AI 安全防护的高级技巧;
- 间接提示注入,了解通过修改网页内容攻击 AI 系统;
- 安全防护绕过,学习突破各种 AI 内容审查机制;
- 三个难度级别设计,从入门到专业逐步提升技能。
通过 Docker Compose 一键部署即可开始练习,适合想深入了解 AI 安全的技术人员和开发者。