「Opusを使いたいけど、コストが怖い」——AIエージェントを本番に入れようとした開発者なら、一度はこの悩みにぶつかったはずだ。
高い精度が欲しければOpus、コストを抑えたければSonnetかHaiku。この二択で悩み続けた結果、妥協の産物みたいなエージェントができあがる。それが今まで多くの現場で起きていた。
Anthropicが2026年4月9日に公開した「アドバイザー戦略(The Advisor Strategy)」は、そのトレードオフをそのまま解消しようというアプローチだ。SonnetやHaikuをベースに動かしながら、難しい判断が必要な場面だけOpusに「相談」する。結果として、Opus単体に近い精度をSonnet程度のコストで実現できる。
この記事では、アドバイザー戦略の仕組みから実際のAPI実装方法、ベンチマーク結果、注意点まで、実務で使える情報をまとめた。
- アドバイザー戦略とは何か——「相談役」と「実行役」に分ける発想
- ベンチマークで見る実際の効果
- 料金体系と実際のコスト感覚
- 実装方法——コード一行で組み込める
- 実際の活用シナリオ
- 注意点とデメリット——正直に伝えておきたいこと
- 導入ステップ——明日から試すために
- まとめ
アドバイザー戦略とは何か——「相談役」と「実行役」に分ける発想
従来のマルチエージェント構成との違い
これまでのマルチエージェント設計では、大きなモデルがオーケストレーター(指揮者)として全体を制御し、小さなモデルに個別タスクを振る構成が一般的だった。いわば「賢い上司が指示を出して、部下が動く」イメージ。
アドバイザー戦略は、この関係を逆転させる。
SonnetやHaikuが最初から最後まで自分でタスクを進める。ツールを呼び、結果を読んで、次の手を考える。これが「エグゼキューター(実行役)」だ。そして、判断に迷ったとき、行き詰まったときだけ、OpusにLINEする——という構造になっている。
OpusはそのLINEに答えるだけで、自分ではツールを動かさないし、ユーザーへの最終回答も作らない。あくまで「助言を返す」役割に徹する。これが「アドバイザー(相談役)」だ。
フロントエンドは安いエンジニアが担当して、設計の迷い箇所だけ上級エンジニアにレビューしてもらう。そんな開発チームの働き方に近い。
なぜこれが有効なのか
Opusが本当に力を発揮するのは「どちらの方向に進むか」という判断の場面であって、定型的な処理を大量にこなすことではない。コードの構造をどう設計するか、テスト結果が矛盾しているときにどう方針転換するか——こういう「分岐点」にだけOpusを使えば、無駄がなくなる。
Anthropicの評価では、Sonnet単体よりSonnet+Opusアドバイザーのほうが、コストを11.9%削減しながらSWE-bench Multilingualのスコアを2.7ポイント上回った。精度が上がってコストが下がる、という結果が出ている。
ベンチマークで見る実際の効果
Sonnet+Opusアドバイザーの成績
Anthropicの評価によると、Sonnet with Opusアドバイザーは複数のベンチマークでSonnet単体を上回り、タスクあたりのコストはSonnet単体より低かった。具体的には以下のような結果が出ている。
| 測定項目 | Sonnet単体 | Sonnet + Opusアドバイザー | 変化 |
|---|---|---|---|
| SWE-bench Multilingual | ベースライン | +2.7ポイント | ↑精度向上 |
| タスクあたりコスト | ベースライン | -11.9% | ↓コスト削減 |
SWE-bench Multilingualとは、9言語にわたる300問のソフトウェアエンジニアリング課題で構成されるベンチマークで、実際のGitHubイシューを解決する能力を測るものだ。数字が示す意味は大きい。
Haiku+Opusアドバイザーは「ゲームチェンジャー」
さらに面白いのが、Haikuにアドバイザーをつけたケースだ。
BrowseCompベンチマークでは、HaikuにOpusアドバイザーをつけたときのスコアが41.2%となり、Haiku単体の19.7%から2倍以上に跳ね上がった。Sonnet単体と比べると29%スコアが下回るが、コストはSonnet単体の85%削減になる。
BrowseCompはウェブ検索を使った調査タスクのベンチマーク。数字を整理するとこうなる。
| 構成 | BrowseCompスコア | 相対コスト |
|---|---|---|
| Haiku単体 | 19.7% | 最安 |
| Haiku + Opusアドバイザー | 41.2% | Haiku単体より高い |
| Sonnet単体 | ~70%前後 | ベースライン |
| Sonnet + Opusアドバイザー | Sonnet超え | Sonnet以下 |
大量のリクエストをさばく必要があって、Haiku単体では品質が足りない——そういうユースケースに、Haiku+Opusアドバイザーは絶妙に刺さる。
料金体系と実際のコスト感覚
モデルごとのAPIレート
2026年2月時点の価格は、Haiku 4.5が入力$1/出力$5、Sonnet 4.6が入力$3/出力$15、Opus 4.6が入力$5/出力$25(いずれも100万トークンあたり)となっている。
| モデル | 入力(/1M tokens) | 出力(/1M tokens) | 特性 |
|---|---|---|---|
| Haiku 4.5 | $1.00 | $5.00 | 高速・低コスト向け |
| Sonnet 4.6 | $3.00 | $15.00 | バランス型 |
| Opus 4.6 | $5.00 | $25.00 | 最高精度・戦略思考 |
アドバイザーツールのコスト計算ロジック
アドバイザーツールを使うとき、課金はシンプルだ。エグゼキューター(SonnetやHaiku)が処理したトークンはそのモデルのレートで課金され、Opusが生成した助言トークンはOpusのレートで課金される。
ポイントは「Opusは短い助言しか生成しない」という点。通常、Opusが出す助言は400〜700テキストトークン(思考も含めると1,400〜1,800トークン)程度。フルの回答を全部Opusに生成させるよりはるかに安い。エグゼキューターが本文全体を生成するからだ。
max_usesパラメーターを設定しておけば、1リクエスト内でOpusへの相談回数を上限管理できる。コストが読みにくいという不安も、これで解消できる。
実装方法——コード一行で組み込める
APIの基本的な使い方
アドバイザーツールはbeta機能として提供されており、リクエストヘッダーにanthropic-beta: advisor-tool-2026-03-01を追加して有効化する。
Pythonでの実装例を見ると、既存のAPIコールへの変更が最小限であることがわかる。
import anthropic client = anthropic.Anthropic() response = client.beta.messages.create( model="claude-sonnet-4-6", # エグゼキューター(実行役) max_tokens=4096, betas=["advisor-tool-2026-03-01"], tools=[ { "type": "advisor_20260301", "name": "advisor", "model": "claude-opus-4-6", # アドバイザー(相談役) "max_uses": 3, # 1リクエストあたりの上限 }, # 他のツール(web_search等)もここに追加できる ], messages=[ {"role": "user", "content": "Goで並行ワーカープールを実装して..."} ] )
既存のエージェントにtools配列に1エントリ追加するだけ。アーキテクチャを作り直す必要はない。
有効なモデルの組み合わせ
エグゼキューターとアドバイザーのペアには制限がある。アドバイザーは必ずエグゼキューター以上の性能モデルである必要がある。現在対応しているのは以下の3パターンだ。
| エグゼキューター | アドバイザー |
|---|---|
| Claude Haiku 4.5 | Claude Opus 4.6 |
| Claude Sonnet 4.6 | Claude Opus 4.6 |
| Claude Opus 4.6 | Claude Opus 4.6 |
SonnetにSonnetをアドバイザーにする、といった組み合わせは今のところ対応していない。
コーディングタスク向けのシステムプロンプト設計
Anthropicが推奨するシステムプロンプトの骨格がある。要点は「本格的な作業に入る前に1回アドバイザーを呼ぶ」「完了だと思ったら呼ぶ」「行き詰まったら呼ぶ」という3タイミングを明示的に指定することだ。
タイミングを指定しないと、モデルが「呼ぶべきか呼ばないべきか」の判断に迷い、無駄な呼び出しが増えるか、逆に全然使わないかのどちらかになりやすい。
アドバイザーの出力トークン数を減らしたい場合は、システムプロンプトの冒頭に「アドバイザーは100語以内で番号付き手順で答えること」という一文を加えるだけで、Anthropicの内部テストでは出力トークンが35〜45%削減できたとされている。
実際の活用シナリオ
シナリオ1:コーディングエージェントの精度向上
大規模なリファクタリングタスクをエージェントに任せるとき、最初の数ファイルを調査させてから一度Opusに「このコードベースの構造を踏まえた設計方針を教えて」と相談する。以降はSonnetがその方針に沿って実装を進める。
全部Opusに頼むと出力トークンが爆発するが、設計相談だけOpusを使えば、精度と費用のバランスが取れる。
Terminal-Bench 2.0という複雑なターミナル操作ベンチマークでも、Sonnet+Opusアドバイザーの組み合わせはSonnet単体を上回る結果が出ている。
シナリオ2:大量のドキュメント処理パイプライン
保険証書や契約書から構造化データを抽出するようなタスクに、Haikuをエグゼキューターとして使う。単純な抽出はHaikuで十分こなせる。複雑な条件が絡み合った箇所だけOpusが判断を下す。
「構造化ドキュメント抽出タスクにおいて、アドバイザーツールによりHaiku 4.5が複雑さに応じてOpus 4.6に動的に判断を委ねることで、フロンティアモデル並みの品質を5倍低いコストで実現できた」——これはある機械学習エンジニアが実際に報告したものだ。
シナリオ3:ウェブ調査エージェント
複数のウェブページを調査して情報をまとめるエージェントでは、ページの読み込みや情報の抽出はSonnetが担当し、「このデータをどう解釈してまとめるか」という判断部分だけOpusに聞く。BrowseCompのベンチマーク改善がこの有効性を裏付けている。
注意点とデメリット——正直に伝えておきたいこと
アドバイザーの呼び出し中はストリームが止まる
アドバイザーへの問い合わせが走っている間、レスポンスのストリームが一時停止する。Opusの推論には時間がかかるため、ユーザーがリアルタイムで生成テキストを見るUXでは、この「無音の間」が気になる場面もある。
ローカルでサクッと動くエージェントならほぼ気にならないが、チャット型のUIに組み込む場合はローディング表示などの工夫が必要になる。
コスト管理は自前でやる部分もある
1リクエスト内のOpus呼び出し回数はmax_usesで上限を設定できる。ただし会話全体(マルチターン)にわたるアドバイザー呼び出し回数の上限は、自分でコード側でカウントして管理する必要がある。
長い会話の途中でアドバイザーツールを削除する場合は、メッセージ履歴からadvisor_tool_resultブロックも一緒に取り除かないと、400エラーになるので注意が必要だ。
まだベータ版
現時点ではbeta機能として提供されており、本番への組み込みは十分な評価を行ってからのほうがいい。特に自社独自のユースケースでは、Anthropicが公開しているベンチマーク結果と実際のタスクで差が出ることもある。まず自社のeval(評価スイート)でSonnet単体、Sonnet+アドバイザー、Opus単体の3パターンを比較してから導入を判断するのが堅実だ。
他のマルチエージェントアプローチとの比較
| アプローチ | 精度 | コスト | 複雑さ |
|---|---|---|---|
| Opus単体 | 最高 | 高い | シンプル |
| Sonnet単体 | 中程度 | 中程度 | シンプル |
| 従来型オーケストレーター+ワーカー | 高い | 高め | 複雑 |
| アドバイザー戦略(Sonnet+Opus) | Opusに近い | Sonnet並み | シンプル |
| アドバイザー戦略(Haiku+Opus) | Sonnetより低い | 最安クラス | シンプル |
導入ステップ——明日から試すために
まず評価から始める
いきなり本番投入は避けたい。Anthropicが推奨するのは、以下の3パターンを自社のevalスイートで計測してから判断することだ。
- Sonnet単体
- Sonnet + Opusアドバイザー
- Opus単体
この3つのスコアとコストを並べれば、「アドバイザーが本当に自社のユースケースに効くのか」が見える。
プロンプトキャッシングを組み合わせる
1回の会話でOpusへの相談が3回以上になる場合は、cachingオプションを有効化しておくとアドバイザー側のコストをさらに下げられる。Opusが毎回フルのコンテキストを読むのではなく、前回からの差分だけ読むようになるからだ。
会話が短い(相談2回以下)場合はキャッシュライトのコストのほうが高くなるので、長いエージェントループにだけ有効にするのが得策だ。
他のツールとの組み合わせ
アドバイザーツールはweb_searchやコード実行ツールと同じtools配列に並べるだけで共存できる。「ウェブを調べて、行き詰まったらOpusに相談して、コードを実行する」という組み合わせが1リクエスト内で完結する。
まとめ
アドバイザー戦略は「Opusの頭脳をSonnetのコストで」という、ある意味ずっと欲しかった答えに近い。
API一行の変更で試せる手軽さと、ベンチマークで実証された効果は本物だ。全部Opusで回しているエージェントがあるなら、まず自社evalにこのパターンを入れてみる価値はある。想像より安く、想像より賢いエージェントができるかもしれない。
まだbetaなのでエッジケースはあると思うが、方向性としては正しい。AIエージェントのコスト問題に悩んでいる開発チームにとって、試してみる理由はじゅうぶんある。