「AIに任せたはずのコードレビューが途中で止まっていた」「長時間タスクを走らせたら変な方向に暴走した」——Claude Codeを使い込んでいるエンジニアなら、こういう経験があるはずだ。
2026年4月16日、AnthropicがClaude Opus 4.7を正式リリースした。キャッチコピーは「You can hand off your hardest work with less supervision」(一番難しい仕事を、監視を減らして任せられる)。これは単なるアップデートではなく、「AIが途中で止まらず、自分でアウトプットを検証して、最後までやり抜く」というエージェントAIの方向性を明確に打ち出した宣言でもある。
この記事では、Opus 4.7で何が変わったのか、ベンチマークの数字の意味、実際の業務でどう使えるのか、そしてコスト面での注意点まで、エンジニアとビジネスパーソン双方の視点からまとめる。
- Claude Opus 4.7とは何か?前モデルとの違いを整理する
- ベンチマーク数値の読み方:GPT-5.4・Gemini 3.1 Proとの比較
- 3倍になったビジョン機能:何ができるようになったか
- 新機能3選:xhigh・/ultrareview・タスクバジェット
- エンジニアとビジネスパーソン別:実際の活用シナリオ
- 注意点と現実的な制約
- Opus 4.6からの移行ガイド:最低限おさえること
- まとめ:「AIを管理する仕事」の時代が始まった
Claude Opus 4.7とは何か?前モデルとの違いを整理する
Opus 4.6からの主な変化点
Opus 4.7のリリースノートを読んで最初に目を引くのが「自己検証」という概念だ。
従来のモデルは、タスクを実行して結果を返すだけだった。Opus 4.7は自分のアウトプットを自分でチェックしてから報告する設計になっている。コードを書いたら、その場でテストを走らせて問題がないか確かめる。分析を終えたら、ロジックに矛盾がないか見直す。これが「監視を減らして任せられる」の実態だ。
具体的な改善点を整理すると:
- 指示追従の精度が大幅向上。Opus 4.6は指示を「ゆるく解釈」することが多かったが、4.7は文字通りに実行する。これは良いことだが、裏を返すと「曖昧なプロンプトで動いていたコードが動かなくなる」場合もある(後述)
- 長時間タスクの継続性が改善。Devinを開発するCognitionは「何時間も首尾一貫して作業し続け、難しい問題に直面しても諦めない」と評価している
- ビジョン機能が飛躍的に向上(詳細は次章)
- メモリ機能の強化。ファイルシステムベースのメモリを使ったマルチセッション作業で、複数セッションをまたいでも重要なコンテキストを保持できるようになった
価格は変わらず、性能だけ上がった
料金はOpus 4.6と同じ。入力100万トークンあたり$5、出力100万トークンあたり$25。Claude.ai上では全プランで利用可能、APIはclaude-opus-4-7というモデルIDで呼び出せる。Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryにも対応している。
ベンチマーク数値の読み方:GPT-5.4・Gemini 3.1 Proとの比較
主要ベンチマーク一覧
数字だけ見ても意味がないので、「それが何を測っているのか」とセットで読んでほしい。
| ベンチマーク | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified(コーディング) | 87.6% | 80.8% | — | 80.6% |
| SWE-bench Pro(エージェントコーディング) | 64.3% | 53.4% | 57.7% | 54.2% |
| GPQA Diamond(大学院レベル推論) | 94.2% | — | 94.4% | 94.3% |
| MMMLU(多言語Q&A) | 91.5% | 91.1% | — | 92.6% |
| BrowseComp(エージェント検索) | 79.3% | — | 89.3% | — |
| CursorBench(実世界コーディング支援) | 70% | 58% | — | — |
SWE-benchmark(SWEはSoftware Engineering)は実際のGitHubのバグ修正タスクをどれだけ自律的に解けるかを測る指標だ。エージェントコーディング(SWE-bench Pro)でOpus 4.7が64.3%というのは、自律的に難しいバグ修正を頼んだとき、約6割以上で成功するということを意味する。GPT-5.4(57.7%)を上回っている。
一方でBrowseComp(ウェブを自律的に検索してリサーチするタスク)ではGPT-5.4(89.3%)に差をつけられている。用途によって得意・不得意がある点は正直に認識しておきたい。
なぜOpus 4.7が「最強の商用モデル」なのか
実はAnthropicにはClaude Mythos Previewという非公開モデルが存在する。SWE-bench Proで77.8%という圧倒的なスコアを出しているが、サイバー攻撃への悪用リスクが高いとして一般公開されていない。Opus 4.7はそのMythosの技術を土台にしつつ、危険な能力を意図的に抑制した「一般向けに公開できる最高性能モデル」という位置づけだ。
3倍になったビジョン機能:何ができるようになったか
解像度の変化が開く新しい用途
Opus 4.7の最大のサプライズのひとつが、画像処理能力の飛躍だ。
対応解像度が最大2,576px(約3.75メガピクセル)に拡張された。Opus 4.6の上限は1,568px(約1.15メガピクセル)だったので、3倍以上になっている。これはAPIのパラメータ変更なしで適用される。Claude側が自動的に高解像度で処理する。
実際の影響として最もわかりやすいのが、セキュリティ企業XBOWのレポートだ。彼らは自律ペネトレーションテストにOpus 4.7を使い、ビジュアル精度ベンチマークで98.5%というスコアを記録した。Opus 4.6での同じテストは54.5%だった。「最大の障壁が実質的に消えた」と評されている。
エンジニアが使えるビジョンのユースケース
- 密度の高いスクリーンショットの読み取り:複雑なダッシュボードやエラーログのスクリーンショットをそのまま貼り付けて分析依頼できる
- 技術図面・回路図の解析:化学構造式や複雑な配線図を正確に読み取れるようになった(Solve Intelligenceが特許業務で活用)
- コンピュータUseエージェント:画面を見て操作するエージェント系ツールの精度が格段に上がる
- 設計物のビジュアルレビュー:UIモックアップやデザインのフィードバックを、実際の見た目を確認しながら出せる
ただし解像度が上がった分、トークン消費も増える。細部の精度が必要ないタスクでは、送信前に画像をダウンサンプリングしてコストを抑えるのが賢い。
新機能3選:xhigh・/ultrareview・タスクバジェット
xhigh:推論深度の細かいコントロール
これまでのエフォートレベルはlow → high → maxの3段階だった。Opus 4.7ではhighとmaxの間にxhigh(エクストラハイ)が追加され、実質4段階になっている(Claude Code上ではデフォルトがxhighに設定済み)。
なぜこれが重要か。maxは推論トークンに上限を設けないため非常に強力だが、遅くてコストも高い。highは速いがギリギリ届かない複雑なタスクがある。xhighはその中間で、「コストを抑えつつ、highでは解けなかった問題も攻略できる」スイートスポットを狙える。
Hexの共同創業者CTOは「低エフォートのOpus 4.7は、中エフォートのOpus 4.6とほぼ同等」と評している。これは言い換えると、同じ推論コストでより高い性能が得られるということだ。
Claude Code上での切り替え方法:
/effort xhigh
またはターミナルから:
claude --effort xhigh
/ultrareview:シニアエンジニア目線のコードレビュー
Claude Codeに/ultrareviewコマンドが追加された。
通常のコードレビューとの違いは、「構文エラーではなく、経験豊富な人間のレビュアーが気づくような設計上の欠陥やロジックの抜け穴を見つける」ことを目的にしている点だ。マルチエージェント解析を並列実行して、一通りの変更を丁寧にチェックする。
/ultrareview # 現在のブランチをレビュー /ultrareview <PR番号> # 特定のGitHub PRをレビュー
リリース時点でPro・MaxのClaude Codeユーザーには3回分の無料ウルトラレビューが提供されている。試してみる価値はある。
タスクバジェット:長時間エージェントのコスト管理
エージェントが長時間自律動作するとき、どれだけトークンを使うか事前にコントロールしたい——という開発者の要望に応える機能がタスクバジェット(現在パブリックベータ)だ。
エージェントループ全体(思考・ツール呼び出し・結果・最終出力)で使うトークン数の目安をClaude側に伝えることで、長時間タスクでのコスト爆発を防ぎやすくなる。タスク予算、エフォートパラメータ、プロンプトでの簡潔さ指示の3つを組み合わせてコストをコントロールする設計だ。
エンジニアとビジネスパーソン別:実際の活用シナリオ
エンジニア向けユースケース
① 長時間コーディングセッションの自律実行
Opus 4.7の最も際立つ強みは「止まらない」ことだ。複数のファイルにまたがる複雑なリファクタリング、テスト作成、デバッグを一貫して自律実行できる。Ramp(フィンテック企業)のエンジニアは「ステップごとの指示がほとんど不要になり、内部エージェントワークフローをスケールできた」と報告している。
② CursorBenchで70%:コーディング支援ツールとして
CursorBenchはリアルな開発支援タスクを評価するベンチマーク。Opus 4.6の58%から70%へと大きく伸びた。Cursorを使っている開発者であれば、モデルをOpus 4.7に切り替えるだけで体感できる差が出るはずだ。
③ コードレビューの品質向上
CodeRabbitのデータでは、難しいPRでのバグ検出率(リコール)が10%以上向上した。「GPT-5.4 xhighより少し速い」という評価もある。プレシジョン(誤検知率)は安定したまま、カバレッジが広がったという結果は実務上かなり意味がある。
ビジネスパーソン向けユースケース
① 金融・法務ドキュメント解析
Harveyの法律ベンチマーク(BigLaw Bench)でOpus 4.7は90.9%を記録。特に「譲渡条項と経営権変更条項を正しく区別できる」点を高く評価されている。これまでのモデルが苦手にしていた分野だ。Databricksのドキュメント推論ベンチマークでも、Opus 4.6比で21%エラーが減少した。
② スライドやドキュメントのクオリティ向上
Anthropicは「より洗練されたクリエイティブな業務でのセンスが良くなった」と述べている。.pptxの編集、.docxのレッドライン(変更履歴)など、普段ビジネス資料を作るような用途でも品質向上が見られる。
③ 長期的なリサーチエージェント
GDPval-AA(金融・法律など経済的価値のある知識作業を評価する第三者ベンチマーク)でOpus 4.7はトップスコアを記録している。「複数セッションをまたいで必要なメモを記憶し、次のタスクに活かす」記憶機能の向上も合わさって、日をまたぐ継続リサーチに向いている。
注意点と現実的な制約
プロンプトの見直しが必要になるケースがある
Opus 4.7の「指示を文字通りに実行する」という特性は、既存のプロンプトに影響を与えることがある。Opus 4.6が「暗黙的に補ってくれていた」部分を補わなくなるからだ。Anthropicのリリースノートには「以前のモデルに書いたプロンプトが予期しない結果を出す場合がある」と明記されており、移行時はプロンプトの再テストを推奨している。
トークン消費が増える可能性がある
Opus 4.7は新しいトークナイザーを採用している。同じ入力でも、コンテンツの種類によって最大1.35倍のトークンを消費する場合がある。さらにxhigh以上のエフォートでは推論に使うトークンも増える。Anthropic自身の内部コーディング評価ではトークン効率が改善しているが、実際のトラフィックで差が出るかは測ってみる必要がある。
コスト管理のポイント: - 高解像度が不要な画像はダウンサンプリングして送る - エフォートレベルをタスクの複雑さに合わせて調整する - タスクバジェット(ベータ)で長時間エージェントのコスト上限を設定する
一部のベンチマークではGPT-5.4に劣る
Terminal-Bench 2.0(ターミナル操作の自律タスク)ではGPT-5.4が上回っており、BrowseComp(ウェブリサーチ)でも差がある。「コーディングとエージェント作業はClaude、汎用的なウェブリサーチや操作自動化はGPT」という使い分けが今のところ合理的かもしれない。
サイバーセキュリティ用途には申請が必要
Opus 4.7には、禁止・高リスクのサイバーセキュリティ用途を自動的に検出・ブロックするセーフガードが組み込まれている。脆弱性調査やペネトレーションテストなど正当な用途で使いたいセキュリティプロは、Cyber Verification Program(claude.com/form/cyber-use-case)への申請が必要だ。
Opus 4.6からの移行ガイド:最低限おさえること
Opus 4.7は基本的にOpus 4.6のドロップイン(そのまま置き換えられる)アップグレードだが、2点だけ注意が必要だ。
1. トークナイザーの変更
同じ入力テキストが1.0〜1.35倍のトークンにマッピングされる可能性がある。/v1/messages/count_tokensの結果が変わるので、トークン数に依存したコードがある場合は確認を。max_tokensパラメータにも余裕を持たせておいたほうがいい。
2. 指示追従が厳密になった 特に低エフォートレベルで顕著。以前は「この指示を全項目に適用してくれるだろう」という前提で書いていたプロンプトが、期待通りに動かなくなる場合がある。
Anthropicが移行ガイドを公開しているので、本番移行前に一読しておきたい。
まとめ:「AIを管理する仕事」の時代が始まった
Opus 4.7を見ていると、AIとの付き合い方が変わりつつあるのをはっきり感じる。
これまでは「AIが出力したものを自分で確認して、修正して、完成させる」というフローが当たり前だった。Opus 4.7が目指しているのは「AIが自分でアウトプットを検証し、問題があれば修正してから持ってくる」という世界だ。Replit社長のMichele Catasaは「AIが自分の限界を正直に伝えてくれる」という点を特に評価している。
そうなると開発者の仕事は「AIに指示を出してコードを書かせる」から「AIが持ってきたアウトプットの品質を判断して、次のタスクを割り振る」に変わっていく。VentureBeatsの評論にある「AIの作業を見守るのではなく、AIの結果を管理する段階に入った」という表現が、この変化をうまく言い表している。
個人的には、/ultrareviewとxhighエフォートの組み合わせを早めに試してみたいと思っている。特にコードレビューは「経験豊富なエンジニアの目線で見てほしいけど、いちいち頼めない」という場面が多い。このコマンドがどこまでその期待に応えられるか、実際に使って確かめる価値がある。
価格は据え置きのまま、コーディング性能が上がり、ビジョンが3倍になった。AIを業務で使っているなら、今すぐアップグレードを検討する理由は十分にある。