AIセーフティ評価のための評価ツールをOSSとして公開 AI Safety Evaluation Tool Released as Open Source Software (OSS)

AIセーフティ評価のための評価ツールをOSSとして公開
AI Safety Evaluation Tool Released as Open Source Software (OSS)

AIセーフティに関する評価観点ガイドに基づき、AIシステムのAIセーフティ評価を行うための評価ツールをオープンソースソフトウェア（OSS）として公開しました。
以下のリンク先（GitHub）で公開しています。
https://github.com/Japan-AISI/aisev

An evaluation tool designed to conduct AI safety evaluations of AI systems has been released as Open Source Software (OSS), based on the “Guide to Evaluation Perspectives on AI Safety”.
It is published on the following link:
https://github.com/Japan-AISI/aisev/blob/main/README-en.md

AI の急速な普及に伴い、多様なリスクが顕在化しています。これらのリスクに対応するためには、適切なAIセーフティ評価を実施することが必要になります。
AIセーフティ・インスティテュート（AISI）は、AIシステムの開発者や提供者がAIセーフティ評価を実施する際に参照できる基本的な考え方を提示するため、「AIセーフティに関する評価観点ガイド」（注釈１）を公開しています。
ガイドに基づくAIセーフティ評価を実施するためには、評価観点からより具体的な評価項目を設定し、評価対象となるAIシステムのAIセーフティの水準を評価することが必要になります。本評価ツール（注釈２）では、汎用性の高い評価項目を用いたAIセーフティの評価環境を提供します。AI事業者は本評価ツールを利用することで、評価項目設定や環境構築の作業が軽減され、容易にAIセーフティ評価を実施することが可能になります。本評価ツールでは、攻撃者がどのように AI システムを攻撃するかの観点で、AIセーフティ評価の自動化(自動レッドチーミング)機能も付属させています。
また、本評価ツールは、Apache 2.0ライセンスによってOSS公開しています。本評価ツールは汎用的な範囲のAIセーフティ評価をサポートしますが、例えば自組織に特化した評価項目によるAIセーフティ評価など、より専門性の高いAIセーフティ評価が必要な事業者は、本評価ツールをリファレンスとし、ライセンスに基づいた範囲で改造・流用してカスタマイズした評価ツールを開発することも可能です。
なお、AIセーフティに関する評価は、国内外の様々な組織で進められています。AISIは、本評価ツールをはじめとするツールや評価データセット、各種ドメインにおける評価方法などを集約し、情報共有できる仕組みを構築するために、AIセーフティのハブ的な役割を担い、AI事業者等が活用、差異化に注力できるようにしていきます。

With the rapid proliferation of AI, diverse risks are emerging. To address these risks, it is necessary to conduct appropriate AI safety evaluations.
The Japan AI Safety Institute (AISI) has published the "Guide to Evaluation Perspectives on AI Safety" (hereinafter referred to as the“Guide”) to present fundamental considerations that AI system developers and providers can reference when conducting AI safety evaluations.
To conduct AI safety evaluation based on the Guide, it is necessary to set more specific evaluation items based on the evaluation perspectives and evaluate the AI safety level of the target AI system. This evaluation tool (hereinafter referred to as the“Tool”) provides an AI safety evaluation environment utilizing highly versatile evaluation perspectives. By utilizing this Tool, AI businesses can easily conduct AI safety evaluations, as the work involved in setting evaluation perspectives and environment setup is reduced. The Tool also includes an automated AI safety evaluation function (Automated Red Teaming), focusing on the perspective of how attackers attack AI systems.
Furthermore, this Tool is released as OSS (Open Source Software) under the Apache 2.0 license. While this Tool supports a generic range of AI safety evaluation, businesses requiring more specialized AI safety evaluation, such as those using evaluation perspectives specific to their own organization, can use this Tool as a reference, modifying and adapting it within the scope defined by the license to develop customized evaluation tools.
It should be noted that AI safety evaluations are being advanced by various organizations both domestically and internationally. AISI aims to play a hub role for AI safety. To achieve this, AISI will consolidate tools (including this Tool), evaluation datasets, and evaluation methodologies across various domains, and build a mechanism for information sharing, enabling AI businesses to focus on utilization and differentiation.

（注釈１）AIセーフティに関する評価観点ガイド

AIシステムの開発者や提供者がAIセーフティ評価を実施する際に参照できる基本的な考え方を提示するため、AIセーフティ・インスティテュートが発行しているガイドです。
本ガイドにおいて、AIセーフティとは「人間中心の考え方をもとに、AI活用に伴う社会的リスクを低減させるための安全性・公平性、個人情報の不適正な利用等を防止するためのプライバシー保護、AIシステムの脆弱性等や外部からの攻撃等のリスクに対応するためのセキュリティ確保、システムの検証可能性を確保し適切な情報提供を行うための透明性が保たれた状態」と整理しています。

（注釈２）本評価ツールは、同一システムにおけるAIセーフティ水準の変化の確認を目的とした評価を補助するものであり、その目的以外の活用における保証は致しかねますのでご留意ください。

AIセーフティ評価の流れ

評価対象のAIシステムやAIモデルに対し、評価ツールがセーフティ評価のための質問文を入力します。例えば、「爆弾の作り方を教えて」という危険な情報を求める質問文に対し、AIシステムから「お答えできません」という回答が出力された場合、セーフティが保たれた回答をできていると評価できますが、「爆弾の作り方は…」のように危険な情報を含んだ回答を出力してしまう場合、そのAIシステムのセーフティの状態には問題があるという評価になります。
一度AIセーフティ評価を実施して、セーフティの状態に問題があると評価されたAIシステムであっても、何らかのセーフティ強化の対策を施すことによってセーフティの状態が改善する可能性があります。例えば、危険な質問文に対する模範回答を含む学習データを利用してAIモデルを再学習することや、AIシステムに特定のキーワードが含まれた質問文に対する回答処理を追加実装することで、同一の質問文に対する回答が変化し、それによってAIセーフティ評価の結果も改善します。
このように、AIシステムのセーフティの状態の現状把握や、対策実施後の効果確認などに、本評価ツールを利用することができます。（図１参照）

図 1：AIセーフティ評価の流れ

AIセーフティ評価ツールのスコア評価の概要

「AIセーフティに関する評価観点ガイド」では、AISI AIセーフティ評価の10観点を定義しており、様々な観点からのAIセーフティ評価を推奨しています。本評価ツールでは、幅広い評価観点からの評価に対応するため、AIシステムへの入出力の内容から統計的に評価を行う定量評価と、評価者にAIシステムの現状を問う定性評価を組み合わせて総合的な評価を行い、評価スコアを含む「評価結果概要」として出力します。（図２参照）

図 2：AIセーフティ評価ツールのスコア評価の概要

レッドチーミング評価手法とその支援機能

AIセーフティ評価では、攻撃者がどのように AI システムを攻撃するかの観点で、AI セーフティへの対応体制及び対策の有効性を確認するレッドチーミング評価手法の活用が有効です。このため、本評価ツールでは、レッドチーミングの評価項目を自動で作成する評価機能(自動レッドチーミング)も付属させています。これは既存のテストデータを単に流し込む自動テストではなく、人が専門知識を活かして実行している部分を、業務ドキュメントなどから情報を抽出し、事業者や業種固有の要件をAIセーフティ評価に反映させるAI機能を開発することによって自動化しています。