AIエージェントの利活用が進む中、「AIエージェントをどう守るか」は実運用を行う上で重要なテーマとなります。現在主流となっているAI セキュリティ診断サービスや、AI セキュリティ監視サービスは、インターネットに露出している外部インターフェース(LLM を呼び出す API や、 LLM を利用したチャットボットなどの最終的な入出力)が主な監視対象となります。
しかしそのような従来型のサービスでは、AIエージェント特有の脅威のうち、73 % の脅威を検知することは難しいです。 本稿では「OWASP Agentic AI – Threats and Mitigations」で定義されている脅威を紹介し、なぜ既存の 診断・監視サービスのみでは対応が困難かを解説します。
OWASP Agentic AI – Threats and Mitigationsとは?
Open Web Application Security Project(OWASP)が開発した、エージェント型AI(Agentic AI)システムのセキュリティリスクに特化したフレームワークです。AIエージェント型システムの脅威モデルや緩和策を議論することを目的としています。ドキュメントには主に下記のような内容が含まれます。
- リファレンスアーキテクチャ — LLM 本体、長短期メモリ、ツール実行エンジン、マルチエージェント通信チャネルなどをブロック図で整理。
- 脅威モデル — 上記ブロック間のデータ/権限フローに潜むリスクを洗い出し。
- 15の脅威カテゴリ — AIエージェントシステムの代表的な脅威 ID(T1〜T15)を定義。
- 緩和策 — セキュリティ要求・設計原則・運用対策の3レイヤで推奨事項を提示。
本稿は第3項目の「15の脅威カテゴリ」に焦点を当て、どの脅威が「従来の外部インターフェースのリスク検証」のみで評価することが困難かを分析します。
15の脅威カテゴリ
OWASPで定義されている15の脅威を一覧表にまとめたものが下記です。表の右端の「外部インターフェースのリスク検証のみでの検知困難度」は弊社の独自の分析結果です。
TID |
脅威名 |
概要 |
外部インターフェースの リスク検証のみでの 検知困難度と理由 |
T1 |
Memory Poisoning |
エージェントの短期・長期メモリに偽情報を注入し、意思決定を操作 |
🔴 高: 内部メモリの状態変化は外部監視不可能 |
T2 |
Tool Misuse |
承認された権限内で統合ツールを悪用し、意図しない操作を実行 |
🟠 中: 監視可能だが、正当な使用との区別が困難 |
T3 |
Privilege Compromise |
動的な権限継承・委譲メカニズムを悪用した権限昇格 |
🔴 高: 自律的な権限管理ロジックは外部から不透明 |
T4 |
Resource Overload |
AI推論処理の計算資源を意図的に枯渇させるDoS(Denial of Service)攻撃 |
🟢 低: リソース使用量は監視可能(但し正常との区別は困難) |
T5 |
Cascading Hallucination Attacks |
AIの誤情報が自己強化メカニズムを通じて増幅・伝播 |
🔴 高: 内部推論での誤情報生成・強化は追跡困難 |
T6 |
Intent Breaking & Goal Manipulation |
プロンプトインジェクション等でエージェントの目標を改変 |
🔴 高: 内部の目標設定と計画立案はブラックボックス |
T7 |
Misaligned & Deceptive Behaviors |
制約を回避し、人間の意図しない方法で目標を達成 |
🔴 高: 内部の意図と推論ロジックは外部からの判断が困難 |
T8 |
Repudiation & Untraceability |
非決定論的な推論パスにより、AI決定の追跡・監査が困難 |
🔴 高: 並列・再帰的な推論プロセスは事後再構築不可能 |
T9 |
Identity Spoofing & Impersonation |
エージェント間の暗黙的な信頼関係を悪用したなりすまし |
🟠 中: 認証は監視可能だがエージェント間信頼は監視困難 |
T10 |
Overwhelming Human in the Loop |
マルチエージェントからの大量要求で人間の判断能力を超過 |
🔴 高: 人間の認知負荷と心理状態は技術的に測定不可能 |
T11 |
Unexpected RCE and Code Attacks |
AI生成コードを悪用した不正実行・システム侵害 |
🟠 中: コード実行は監視可能だが、生成意図の判断困難 |
T12 |
Agent Communication Poisoning |
マルチエージェント間の通信に偽情報を注入し、協調動作を妨害 |
🔴 高: エージェントに対する信頼性は測定困難 |
T13 |
Rogue Agents in Multi-Agent Systems |
悪意あるエージェントがマルチエージェント環境に潜入 |
🔴 高: エージェントの意図と正常な協調の区別が困難 |
T14 |
Human Attacks on Multi-Agent Systems |
エージェント間の委譲メカニズムを悪用した権限昇格・DoS |
🔴 高: 分散型の権限委譲は全体像の把握が困難 |
T15 |
Human Manipulation |
AIへの信頼を悪用し人間を有害行動に誘導するソーシャルエンジニアリング攻撃 |
🔴 高: 人間とAIの信頼関係の悪用は検知が困難 |
この表から、OWASP Agentic AI – Threats and Mitigationsで定義される73 % (11/15) の脅威は従来型の診断・監視サービスで検知困難度が高いということが分かります。
検知困難度が高い脅威の特徴
続いて、検知困難度が高い脅威をグループ化し、その解説を行います。
- 内部状態・プロセスの不可視性における脅威(T1, T3, T5, T6, T7, T8)
AIエージェントは次の動作を決めるために、長短期メモリの情報、利用可能なツールの状況等、様々な情報を基に行動計画を策定します。これらはいずれも AIエージェントに対する外部インターフェースへの診断や監視のみで直接確認することはできません。攻撃者はメモリへの偽情報注入や、時間をかけた段階的なAIエージェントの目標書き換えによって、AIエージェントに対して意図しない動作を実行させることが可能です。 - マルチエージェントシステムにおける脅威(T12, T13, T14)
AIエージェントは、与えられたタスクを分解し、必要に応じて適切なツールの利用、もしくは別の適切なAIエージェントにタスクを委譲します。これらの AIエージェントは権限や知識を共有するため、どこかで誤りがあると、それらが広がってしまいます。また、複数のエージェントが接続するシステムでは攻撃者による指示や、悪意あるエージェントが紛れ込むことにより、そういった誤りを取り込んでしまう可能性が高くなります。シンプルなAIシステムと異なり、入力が様々なエージェントを経て最終的な応答を返すため、単純な外部インターフェースからの検知が困難になります。 - 人間との相互作用における脅威(T10, T15)
人間は最終承認者であると同時にシステムの脆弱性にもなりえます。AIエージェントが人間の担当者に対して大量のレビューを依頼することで集中力を奪うケースや、ソーシャルエンジニアリング手法で人間の担当者に本来許可していない動作の実施を勧めるケースが考えられます。こうした攻撃はシステムログでは“正当な人間操作”としてしか残りません。これらの観点は従来型のサービスでは考慮おらず、見落とされがちです。
まとめ
- OWASP Agentic AI - Threats and Mitigations ではAIエージェントのリファレンスアーキテクチャ、脅威モデル・カテゴリ、緩和策等が記載されている
- AIエージェントシステムの脅威カテゴリの73%は外部インターフェースのみの評価に特化したAI セキュリティ診断・監視サービスだけではそのセキュリティ対応が難しい。
- 脅威の特徴は内部状態の不可視性、マルチエージェントシステムにおける誤りの連鎖、人間との相互作用。
次回予告
次回以降、具体的な攻撃シナリオを詳しく検討します。第4回、第5回では、単独エージェント環境とマルチエージェント環境のそれぞれにおいて、本稿で取り扱った脅威がどのように悪用されるかを架空のシナリオを基に解説します。第6回では実際の脅威事例を分析し、AIエージェントシステムへの脅威が決して机上の空論ではないことを実証します。以下の内容で順次リリースしていきますので、ご期待ください。
第4回~第6回 AIエージェントシステムへの具体的な攻撃シナリオ
- 第4回:単独AIエージェントに仕掛けられる3つの脅威|記憶・判断・信頼への“点の攻撃”
- 第5回:マルチエージェントへの【面】の攻撃――システム全体への影響と信頼メカニズムの脆弱性
- 第6回:実例分析――現実の脆弱性から見える「今そこにある危機」