AIシステムの悪用や誤用、不正確な出力による懸念などが生じ、AIセーフティについての関心が国内外で高まりつつある中、AISIでは2024年9月に「AIセーフティに関するレッドチーミング手法ガイド」を第1.00版として公開しました。AIセーフティに関するレッドチーミング手法とは、AIシステムの開発者や提供者が、対象のAIシステムに施したリスクへの対策を攻撃者の視点から評価するための手法です。本ガイドは、AIセーフティに関するレッドチーミング手法について基本的な考慮事項を取りまとめた資料です。
2025年3月に、具体的な実施例を通してより詳細に理解できるよう改訂し、第1.10版として公開しました。RAG(Retrieval-Augmented Generation)の仕組みを実装したAIシステムに対して実際にレッドチーミングを行い、その手順を詳細に解説するとともに、レッドチーミング実施の成果物を文書としてとりまとめました。
AIを取り巻く環境は変化が激しいことも踏まえ、今後、適宜修正を行い、改訂してまいります。
With growing concerns over the misuse or abuse of AI systems and the potential risks associated with inaccurate outputs, interest in AI safety is on the rise both in Japan and around the world. In September 2024, AISI published the first edition (Version 1.00) of the “Guide to Red Teaming Methodology on AI Safety.” A red teaming methodology for AI safety refers to a technique through which AI system developers or providers evaluate the effectiveness of their risk mitigation measures from the perspective of potential attackers. This guide serves as a resource that compiles fundamental considerations for implementing such red teaming methods in the context of AI safety.
In March 2025, we updated and released Version 1.10 of the guide to provide a more detailed understanding through concrete examples. Specifically, we conducted red teaming on an AI system that implements a Retrieval-Augmented Generation (RAG) mechanism, explained each step in detail, and compiled the outcomes of the red teaming exercise into a structured document.
Given the rapidly changing environment surrounding AI, J-AISI will continue to make revisions and updates as appropriate.