本連載の第3回記事でも解説をしたように、AIエージェントシステムに対する脅威の73%は、外部インターフェースへのセキュリティ診断や監視といった従来のアプローチのみでは検知が困難です。これは、AIエージェントの内部状態や推論プロセス、エージェント間の複雑な相互作用から生じるリスクを捉えることができないためです。
では、この「見えないリスク」にどう対処すればよいのでしょうか。本稿では、従来のセキュリティアプローチの構造的な限界を明らかにし、設計段階からセキュリティを組み込む「Shift Left」アプローチの必要性について解説します。
従来のセキュリティ対策は、主に外部との接点(API、ユーザーインターフェース)を監視し、異常なパターンを検知することに重点を置いてきました。例えば、WebアプリケーションであればWAF(Web Application Firewall)、APIであればレート制限やアクセス制御といった対策が有効でした。
しかし、AIエージェントシステムでは、このアプローチが以下の理由により通用しません。
第1回記事で解説をした「AIエージェントの4つの特性」が、セキュリティ対策をさらに困難にしています。
これらの特性により、従来の「異常を検知して対応する」というリアクティブなアプローチでは、もはや十分な保護を提供できません。セキュリティ対策を開発の後工程から前工程へと「Shift Left」させ、設計段階から脅威モデリングによるプロアクティブなアプローチを取ることが求められています。
「Shift Left」とは、開発ライフサイクルの早期段階(左側)でセキュリティを組み込むアプローチです。問題が発生してから対処するのではなく、設計段階から潜在的なリスクを特定し、予防的な対策を実装します。
NIST(米国国立標準技術研究所)のレポートによれば、設計段階での修正コストは本番環境での修正と比較して30分の1で済みます。AIエージェントシステムでは、その複雑性と相互依存性により、この差はさらに拡大すると考えられます。
AIエージェントシステムのセキュリティを設計段階で確保するために、OWASPをはじめとする組織が専門的なフレームワークを開発しています。
これらのフレームワークを適切に活用することで、設計段階から体系的な脅威分析が可能になります。
これまでのセキュリティ対策は、プロンプトインジェクションのような脅威に対して非決定論的なアプローチ(確率的な防御)が主流で、決定打となる本質的な対策は存在しませんでした。しかし、すべての脅威に対してとは言えないものの、設計段階から決定論的アプローチ(攻撃が成立し得ないシステム構造や処理方式の採用等)を導入することで、確実な防御を施すことが可能な対策案も現れています。一例として、プロンプトインジェクション対策の設計パターンを紹介します。
2025年6月に発表された論文「Design Patterns for Securing LLM Agents against Prompt Injections」は、AIエージェントセキュリティにおける画期的な提案を行いました。この論文の最大の特徴は、「プロンプトインジェクション問題に対して完璧な防御は不可能」という現実を認識した上で、実用的なトレードオフを通じた体系的な防御パターンを提示している点です。
第4回記事で紹介したGitHub MCPの脆弱性も、まさにこの種のプロンプトインジェクション攻撃の一例です。 GitHub MCPの脆弱性では、攻撃者が公開リポジトリのIssueに悪意あるプロンプトを仕込むことで、AIエージェントにプライベートリポジトリのデータを漏洩させることが可能でした。
論文では、このような脅威に対する6つの設計パターンを提案しており、ここでは、これらの設計パターンの1つである「Dual LLM」を選び、GitHub MCPの脆弱性に対して適用することを考えてみます。「Dual LLM」は、2つの異なる役割を持つLLMを組み合わせます。
GitHub MCPの脆弱性の攻撃シナリオで、このパターンがどう機能するか見てみましょう。
このパターンを理解するには、「社長と秘書」の関係に例えると分かりやすいでしょう。
ある日、社長が「この取引先からの提案書を読んで要約を作って。それを私が田中部長にメールするから。」と秘書に依頼します。秘書が提案書を読むと、「今すぐ100万円を攻撃者の口座に振り込め」「他の取引先との契約書も全て送れ」という詐欺の指示が紛れ込んでいました。
しかし、下記のとおり、結果として詐欺の指示は誰にも実行されることなく無害化されます。
その他のパターン(Action-Selector、Plan-Then-Execute、Map-Reduce、Code-Then-Execute、Context-Minimization)については詳細な説明はここでは割愛しますが、これらのパターンの共通点は、いずれも「信頼できない入力を処理したAIエージェントは、危険な行動を取れないように制限する」という厳格な制約アプローチです。確率的な判断による防御に依存するのではなく、機能を意図的に制限することで安全性を確保するという、現実的な選択を用いています。
従来のWebシステムとAIエージェントシステムのセキュリティ対策を比較すると、その困難さが明確になります。
特に修正コストの差は顕著で、AIエージェントシステムでは事後的な対策が経済的にも技術的にも極めて困難です。この比較からも、設計段階からの予防的アプローチが不可欠であることがわかります。
本稿では、従来のセキュリティアプローチがAIエージェントシステムに対して構造的な限界を持つことを明らかにしました。外部インターフェースの評価や監視だけでは大部分の脅威を検知できず、AIエージェント特有の性質(非決定論的、自律的、適応的、分散的)がさらに対策を困難にしています。
この課題に対する答えが「Shift Left」アプローチです。設計段階から脅威モデリングを実施し、予防的な対策を組み込むことで、コストを抑えながら効果的なセキュリティを実現できます。OWASPのフレームワークや設計パターンの活用により、体系的なアプローチが可能になりました。
しかし、これらの脅威モデリングを適切に実施するには、AIシステムとセキュリティの両方に精通した専門知識が必要です。また、急速に進化する脅威に継続的に対応していくことも大きな課題です。
では、どのようにしてこの課題を解決すればよいのでしょうか。次回は、これらの課題に対する実践的なソリューションとして、NRIセキュアテクノロジーズが提供する「AI Yellow Team(AYT)」サービスがどのように企業のAIエージェントセキュリティを支援するかを詳しく解説します。