セキュリティエンジニアが頭を抱える「脆弱性トリアージ地獄」を、AIが根本から解決しようとしています。2026年3月6日、OpenAIはアプリケーションセキュリティエージェント「Codex Security」をリサーチプレビューとして公開しました。
「また新しいセキュリティスキャンツールか」と思ったそこのあなた、少し待ってください。Codex Securityは従来の静的解析ツール(SAST)とは根本的に設計思想が異なります。単なるパターンマッチングではなく、AIがコードベースの文脈を深く理解した上で、人間のセキュリティ研究者のように脆弱性を「推論」して発見するのです。
この記事では、Codex Securityの機能・仕組み・実績・競合比較・導入上の注意点まで、エンジニアが実務で判断できるレベルで徹底解説します。
- Codex Securityとは何か?登場の背景と解決する課題
- Codex Securityの4つのコア機能:何ができるのか
- 実績データで見るCodex Securityの能力:何を発見したのか
- 競合比較:Codex SecurityはClaude Code SecurityやSnykとどう違うのか
- 実際の活用シナリオ:どんな場面で使えるのか
- 注意点・デメリット:導入前に知っておくべきリスクと限界
- GPT-5.3-Codexとの関係:セキュリティ特化モデルの全体像
- まとめ:Codex Securityは「セキュリティの民主化」への大きな一歩
Codex Securityとは何か?登場の背景と解決する課題
セキュリティレビューが「開発のボトルネック」になっている
AIコーディングエージェントの普及により、コードの生産速度は急激に上がっています。コード生成が加速する一方で、セキュリティレビューはいまだに人手に頼る部分が大きく、開発スピードとセキュリティ品質のギャップが広がっています。
また、既存のAIセキュリティツールには根本的な課題がありました。多くのAIセキュリティツールは低インパクトの発見事項や誤検知(ファルスポジティブ)を大量に出力するだけで、セキュリティチームはトリアージ(優先度の仕分け作業)に多大な時間を取られているという問題です。
OSSのメンテナーが実際に語った言葉が象徴的です。脆弱性報告の数が足りないのではなく、質の低い報告が多すぎることが課題だ、とメンテナーたちは訴えており、誤検知を減らし、本物のセキュリティ問題を適切に表面化させる方法が必要だと言っているのです。
OpenAIが提示した解答:「文脈を理解する」セキュリティエージェント
Codex Securityは、フロンティアモデルによるエージェント的推論と自動バリデーション(検証)を組み合わせることで、高信頼度の発見事項と実行可能な修正案を提供するように設計されています。
リサーチプレビューの対象はChatGPT Enterprise、Business、Eduのユーザーで、Codex Webから利用可能で、最初の1ヶ月は無料で使用できるとのことです。
Codex Securityの4つのコア機能:何ができるのか
機能①:システム文脈の構築とスレットモデルの生成
Codex Securityの最大の特徴は、単にコードをスキャンするのではなく、プロジェクト固有の「脅威モデル(スレットモデル)」を生成する点です。
スキャンを設定した後、リポジトリを解析してシステムのセキュリティ関連の構造を把握し、そのシステムが何をするのか、何を信頼しているか、どこが最も露出しているかを把握したプロジェクト固有の脅威モデルを生成するのです。
さらに、この脅威モデルはチームが編集できます。例えば「このAPIエンドポイントは認証が必要ない設計だ」「このモジュールはインターネットから直接アクセスされない」といったアーキテクチャの事情をAIに伝えることで、誤検知をさらに減らせます。
機能②:脆弱性の優先度付けとサンドボックスでの検証
脅威モデルを文脈として使いながら脆弱性を検索し、お使いのシステムにおける実際の影響度に基づいて発見事項をカテゴリ分けする。可能な場合は、サンドボックス環境での検証を行い、シグナル(真の脆弱性)とノイズを区別するようになっています。
「サンドボックスでの検証」が重要です。従来ツールが「これはSQLインジェクションになりうる書き方だ」とフラグを立てるだけなのに対して、Codex Securityは実際に攻撃が成立するかどうかを隔離環境で試して確認してから報告します。これが大量の誤検知を排除する核心的なメカニズムです。
機能③:コミット単位での継続スキャンとフィードバック学習
Codex Securityは接続されたリポジトリをコミット単位でスキャンする。リポジトリからスキャン文脈を構築し、有望な脆弱性をその文脈に照らして確認し、高シグナルの問題を隔離環境で検証してから表示するという設計です。
つまり、コードがプッシュされるたびに自動でセキュリティチェックが走ります。CI/CDパイプラインに組み込むイメージです。
さらにフィードバックから時間をかけて学習する機能も持っており、発見事項の重要度を調整するとその情報をもとに脅威モデルを洗練させ、アーキテクチャとリスク状況の観点から何が重要かを学習して、次回スキャンの精度向上に活かすとのことです。使えば使うほど賢くなる仕組みです。
機能④:ランク付きの修正提案(パッチ生成)
発見された脆弱性に対して、ランク付きの結果、証拠、および修正案オプションを提示する機能があります。単に「問題がある」と報告するだけでなく、どう直すかまでセットで提案するため、開発者がすぐに修正に動けます。大規模に運用することを念頭に設計されており、すぐに受け入れられるパッチを提供することで、開発者がより高度なタスクに集中できるようにすることを目指しているとのことです。
実績データで見るCodex Securityの能力:何を発見したのか
ベータ期間中の定量的成果
数字は正直です。直近30日間で、ベータコホートの外部リポジトリにわたって120万件以上のコミットをスキャンし、792件のクリティカルな発見と10,561件の高深刻度の発見を特定した。クリティカルな問題はスキャンしたコミットの0.1%未満に現れており、大量のコードの中で真にインパクトのあるセキュリティ問題を特定しつつ、ノイズを最小化できることを示しているのです。
「0.1%未満にクリティカル発見」という数字は、逆に言えば99.9%以上は誤検知しないということを示しており、これが従来ツールとの最大の差別化ポイントです。
発見したOSS(オープンソース)の脆弱性一覧
Codex Securityが発見した高インパクトなOSS脆弱性の例として、GnuTLSのHeap-Buffer Overflow(CVE-2025-32990)、GnuTLSのHeap Buffer Overread(CVE-2025-32989)、GnuTLSのDouble-Free(CVE-2025-32988)、GOGSの2FAバイパス(CVE-2025-64175)、LDAPインジェクション(CVE-2025-35431)などが挙げられる。
OpenSSH、GnuTLS、GOGS、Thorium、Chromiumなどのオープンソースプロジェクトで脆弱性を報告しており、これまでに14件のCVEが発行されている。CVE(Common Vulnerabilities and Exposures)とは、公式に認定されたセキュリティ脆弱性の識別番号のことです。
NETGEARの評価コメント
NETGEARのプロダクトセキュリティ責任者でCVEボードメンバーのChandan Nandakumaraiah氏は「Codex Securityはセキュリティ開発環境にシームレスに統合され、レビュープロセスのスピードと深度を強化した。発見内容は明確で包括的であり、経験豊富なプロダクトセキュリティ研究者が一緒に作業しているような感覚だった」とコメントしている。
競合比較:Codex SecurityはClaude Code SecurityやSnykとどう違うのか
AIセキュリティ領域は2026年に入ってから急速に競争が激化しています。AnthropicもCodex Securityの1ヶ月前にClaude Code Securityを投入しており、従来のサイバーセキュリティベンダーの株価を大きく下落させたという背景があります。
主要ツール比較表
| 項目 | Codex Security | Claude Code Security | GitHub Copilot(セキュリティ機能) | Snyk / SonarQube |
|---|---|---|---|---|
| 提供形態 | エージェント型(自律動作) | エージェント型(自律動作) | アシスタント型(補助) | SAST(静的解析) |
| 脆弱性検出アプローチ | 文脈推論+サンドボックス検証 | 意味的推論(セマンティック) | パターンマッチング+AI補助 | ルールベース+パターンマッチング |
| 脅威モデル生成 | ✅ プロジェクト固有・編集可 | ✅ あり | ❌ なし | ❌ なし |
| 自動パッチ生成 | ✅ あり | ✅ あり | 限定的 | 一部あり |
| サンドボックス検証 | ✅ あり | ✅ あり | ❌ なし | ❌ なし |
| フィードバック学習 | ✅ あり | 不明 | ❌ なし | ❌ なし |
| OSS脆弱性発見実績 | 14 CVEs(GnuTLS等) | 500件以上の脆弱性 | なし(公式発表) | — |
| 価格(目安) | Enterprise/Business/Edu向け(1ヶ月無料) | Enterprise向け | Copilot Business $19/月〜 | 有料プランあり |
| 誤検知率 | 極低(0.1%未満がクリティカル) | 低 | 中〜高 | 高め |
多くのセキュリティエグゼクティブは、企業は同一のAIプラットフォームプロバイダーにコード構築とセキュリティ確保の両方を依存するよりも、複数のベンダーを組み合わせて使い続けるだろうと主張している点も見逃せません。Codex Securityが優秀であっても、既存ツールとの「併用」が現実的な選択肢になりそうです。
従来のSASTツールとの根本的な違い
従来のSASTツール(SonarQube、Checkmarx、Veracodeなど)は「パターンマッチング」で動作します。「SQLクエリにユーザー入力が直接連結されていたらSQLインジェクションの可能性あり」といった事前定義ルールの集合体です。
これに対してCodex Securityは、コード全体の「意味(セマンティクス)」を理解します。例えば「このユーザー入力は5行上でサニタイズ処理されているから安全」「このAPIは設計上認証なしでもアクセスされる想定になっている」といった文脈まで踏まえて判断するため、誤検知が大幅に減ります。
実際の活用シナリオ:どんな場面で使えるのか
シナリオ①:大規模レガシーコードのセキュリティ監査
20万行を超えるレガシーシステムのセキュリティ監査を人手でやるのは、コストも時間も膨大です。Codex Securityにリポジトリを接続して脅威モデルを生成させ、クリティカルな発見事項だけを人間がレビューするという「AIファーストのセキュリティ監査」が現実的になります。
例えば金融系システムで「外部からアクセスされるAPIエンドポイント」「DBへの直接クエリ部分」「認証処理のコード」を重点スキャン対象として脅威モデルに定義すれば、リスクが高い箇所を効率的に絞り込めます。
シナリオ②:CI/CDパイプラインへの組み込みによる継続的セキュリティ
コミットのたびにCodex Securityが自動スキャンを行い、クリティカルな脆弱性が検出されればPRに自動コメント・マージをブロックする、という仕組みを構築できます。セキュリティを「後でやること」から「コードを書いた瞬間に確認すること」へと変革できます。
シナリオ③:OSSへの貢献と社外へのセキュリティアピール
OpenAIはコードセキュリティの改善に向けて、自社が依存しているOSSリポジトリをスキャンし、高インパクトのセキュリティ発見をメンテナーと共有することで、その基盤を強化しようとしているように、自社開発のOSSをCodex Securityでスキャンして発見した脆弱性を報告・修正する活動は、技術コミュニティへの貢献として対外的なブランディングにもなります。
シナリオ④:セキュリティチームの工数削減
開発者が高度なタスクに集中できるようにするという設計思想の通り、セキュリティエンジニアの仕事が「大量のアラートを一つひとつ確認する」から「AIが絞り込んだ真に重要な問題を深く分析する」へとシフトします。10人のセキュリティチームが100人分の脆弱性チェックをこなせるようになるイメージです。
注意点・デメリット:導入前に知っておくべきリスクと限界
注意点①:現時点でEnterprise/Business/Edu向けのみ
ChatGPT Enterprise、Business、Eduの顧客向けにリサーチプレビューとして展開されているのが現状です。個人開発者やスタートアップがすぐに使えるわけではありません。一般公開の時期は未定で、価格体系も正式発表されていません。
注意点②:リサーチプレビューゆえの機能的制約
まだリサーチプレビューの段階であり、本番環境での運用に耐える完成度かどうかは継続的に評価が必要です。OpenAI自身も「反復的な展開戦略に沿ってリリースしている」と述べており、機能変更・廃止が今後起こりうる点を認識しておくべきです。
注意点③:Codex CLI自体の過去の脆弱性
皮肉なことに、Codex CLIには過去にCVE-2025-61260というコマンドインジェクション脆弱性が発見されており、悪意あるリポジトリのコンフィグファイルを通じて任意コマンド実行、クレデンシャルの漏洩、権限昇格、サプライチェーン攻撃といった深刻な被害をもたらしうることが示された。この脆弱性はパッチで修正済みですが、AIセキュリティツール自体もセキュリティリスクになりうるという事実は、導入時にリスク評価が必要なことを示しています。
注意点④:同一プラットフォームへの依存リスク
コードの構築とセキュリティ確保を同じAIプラットフォームプロバイダーに依存することへの懸念もあるという指摘があります。OpenAIのAPIやサービスに障害が起きれば、開発とセキュリティの両方が止まるリスクがあります。クリティカルなシステムでは、既存のSASTツールとの併用によるリスク分散が現実的です。
注意点⑤:デュアルユース(攻撃への転用)リスク
GPT-5.3-Codexはサイバーセキュリティ関連タスクで「高能力(High capability)」に分類される初のモデルであり、ソフトウェアの脆弱性を特定するために直接トレーニングされた初のモデルでもある。能力が高いゆえに、悪意ある使用への懸念もあり、OpenAIは「Trusted Access for Cyber」という試験的プログラムを通じてサイバー防衛研究を加速させる一方、リスクの高いリクエストを自動検出してルーティングするセーフガードを導入していると説明しています。
GPT-5.3-Codexとの関係:セキュリティ特化モデルの全体像
Codex Securityは単独のツールではなく、OpenAIのより広いセキュリティ戦略の一部です。
OpenAIはセキュリティ研究エージェント「Aardvark」のプライベートベータを拡大しており、これをCodex Securityプロダクトスイートの最初のオファリングとして位置づけている。また、Next.jsなど広く使われているプロジェクトのオープンソースメンテナーと提携して、無料のコードベーススキャンを提供している。
また、OpenAIは2023年に開始した100万ドルのサイバーセキュリティグラントプログラムを発展させ、最も能力の高いモデルを活用したサイバー防衛加速のために1,000万ドル分のAPIクレジットを提供することを約束しており、特にオープンソースソフトウェアと重要インフラシステムへの支援を予定しているということです。
まとめ:Codex Securityは「セキュリティの民主化」への大きな一歩
Codex Securityが示しているのは、セキュリティの「質の問題」を解決するアプローチです。
これまでのAIセキュリティツールは「量」を出すことに優れていましたが、大量の誤検知でむしろセキュリティエンジニアの負担を増やしていました。Codex Securityはプロジェクト固有の文脈を深く理解し、サンドボックスで実際に検証した上で「本当に危険なもの」だけを報告するという、質の転換を実現しています。
特にエンジニアチームを持つ組織において、以下のアクションを検討する価値があります。
- 今すぐ: ChatGPT Enterprise/Business/Eduユーザーであれば、無料期間中にリサーチプレビューを試してみる
- 準備として: 自社のリポジトリのセキュリティレビュー体制の現状を棚卸しする
- 並行して: Claude Code SecurityやSnykなど競合ツールとの比較評価を行い、組み合わせによる多層防御を検討する
AIがコードを書く時代には、AIがセキュリティを守る仕組みも必要です。Codex Securityはその方向性を明確に示した一手です。正式リリース時の価格と機能に注目しながら、早めに情報を集めておくことをお勧めします。