AIエージェントの利活用が進む中、「AIエージェントをどう守るか」は実運用を行う上で重要なテーマとなります。現在主流となっているAI セキュリティ診断サービスや、AI セキュリティ監視サービスは、インターネットに露出している外部インターフェース(LLM を呼び出す API や、 LLM を利用したチャットボットなどの最終的な入出力)が主な監視対象となります。
しかしそのような従来型のサービスでは、AIエージェント特有の脅威のうち、73 % の脅威を検知することは難しいです。 本稿では「OWASP Agentic AI – Threats and Mitigations」で定義されている脅威を紹介し、なぜ既存の 診断・監視サービスのみでは対応が困難かを解説します。
Open Web Application Security Project(OWASP)が開発した、エージェント型AI(Agentic AI)システムのセキュリティリスクに特化したフレームワークです。AIエージェント型システムの脅威モデルや緩和策を議論することを目的としています。ドキュメントには主に下記のような内容が含まれます。
本稿は第3項目の「15の脅威カテゴリ」に焦点を当て、どの脅威が「従来の外部インターフェースのリスク検証」のみで評価することが困難かを分析します。
OWASPで定義されている15の脅威を一覧表にまとめたものが下記です。表の右端の「外部インターフェースのリスク検証のみでの検知困難度」は弊社の独自の分析結果です。
TID |
脅威名 |
概要 |
外部インターフェースの リスク検証のみでの 検知困難度と理由 |
T1 |
Memory Poisoning |
エージェントの短期・長期メモリに偽情報を注入し、意思決定を操作 |
🔴 高: 内部メモリの状態変化は外部監視不可能 |
T2 |
Tool Misuse |
承認された権限内で統合ツールを悪用し、意図しない操作を実行 |
🟠 中: 監視可能だが、正当な使用との区別が困難 |
T3 |
Privilege Compromise |
動的な権限継承・委譲メカニズムを悪用した権限昇格 |
🔴 高: 自律的な権限管理ロジックは外部から不透明 |
T4 |
Resource Overload |
AI推論処理の計算資源を意図的に枯渇させるDoS(Denial of Service)攻撃 |
🟢 低: リソース使用量は監視可能(但し正常との区別は困難) |
T5 |
Cascading Hallucination Attacks |
AIの誤情報が自己強化メカニズムを通じて増幅・伝播 |
🔴 高: 内部推論での誤情報生成・強化は追跡困難 |
T6 |
Intent Breaking & Goal Manipulation |
プロンプトインジェクション等でエージェントの目標を改変 |
🔴 高: 内部の目標設定と計画立案はブラックボックス |
T7 |
Misaligned & Deceptive Behaviors |
制約を回避し、人間の意図しない方法で目標を達成 |
🔴 高: 内部の意図と推論ロジックは外部からの判断が困難 |
T8 |
Repudiation & Untraceability |
非決定論的な推論パスにより、AI決定の追跡・監査が困難 |
🔴 高: 並列・再帰的な推論プロセスは事後再構築不可能 |
T9 |
Identity Spoofing & Impersonation |
エージェント間の暗黙的な信頼関係を悪用したなりすまし |
🟠 中: 認証は監視可能だがエージェント間信頼は監視困難 |
T10 |
Overwhelming Human in the Loop |
マルチエージェントからの大量要求で人間の判断能力を超過 |
🔴 高: 人間の認知負荷と心理状態は技術的に測定不可能 |
T11 |
Unexpected RCE and Code Attacks |
AI生成コードを悪用した不正実行・システム侵害 |
🟠 中: コード実行は監視可能だが、生成意図の判断困難 |
T12 |
Agent Communication Poisoning |
マルチエージェント間の通信に偽情報を注入し、協調動作を妨害 |
🔴 高: エージェントに対する信頼性は測定困難 |
T13 |
Rogue Agents in Multi-Agent Systems |
悪意あるエージェントがマルチエージェント環境に潜入 |
🔴 高: エージェントの意図と正常な協調の区別が困難 |
T14 |
Human Attacks on Multi-Agent Systems |
エージェント間の委譲メカニズムを悪用した権限昇格・DoS |
🔴 高: 分散型の権限委譲は全体像の把握が困難 |
T15 |
Human Manipulation |
AIへの信頼を悪用し人間を有害行動に誘導するソーシャルエンジニアリング攻撃 |
🔴 高: 人間とAIの信頼関係の悪用は検知が困難 |
この表から、OWASP Agentic AI – Threats and Mitigationsで定義される73 % (11/15) の脅威は従来型の診断・監視サービスで検知困難度が高いということが分かります。
続いて、検知困難度が高い脅威をグループ化し、その解説を行います。
次回以降、具体的な攻撃シナリオを詳しく検討します。第4回、第5回では、単独エージェント環境とマルチエージェント環境のそれぞれにおいて、本稿で取り扱った脅威がどのように悪用されるかを架空のシナリオを基に解説します。第6回では実際の脅威事例を分析し、AIエージェントシステムへの脅威が決して机上の空論ではないことを実証します。以下の内容で順次リリースしていきますので、ご期待ください。
第4回~第6回 AIエージェントシステムへの具体的な攻撃シナリオ