エンジニアの思い立ったが吉日

このブログでは、「あ、これ面白い!」「明日から仕事で使えそう!」と感じたIT関連のニュースやサービスを、難しい言葉を使わずに分かりやすく紹介しています。ITに詳しくない方にも楽しんでもらえるような情報を発信していくので、ぜひ「継続的な情報収集」の場としてご活用ください。

Microsoft 365 Copilotに「Critique」登場——GPTが書いてClaudeが審査するAIリサーチの新時代

「AIが出した答え、本当に正しいの?」

仕事でAIを使っていると、一度はこの不安を感じたはずです。引用元が怪しい、事実確認が甘い、気づいたら間違った情報をそのまま使っていた——こういった経験が積み重なると、結局「AIに任せるのは怖い」という結論になりがちです。

Microsoftはその問題に、かなりトリッキーな方法で答えを出しました。「1つのAIに任せるのが不安なら、2つのAIに分業させればいい」。

2026年3月30日、Microsoft 365 CopilotのResearcherエージェントに、CritiqueとCouncilという2つのマルチモデル機能が追加されました。

この記事では、Critiqueが具体的にどう動くのか、従来のDeep Researchツールと何が違うのか、そして業務でどう使えばいいかを徹底解説します。

CritiqueとCouncilって何? まず全体像を把握する

「GPTが書いて、Claudeが審査する」という発想

Critiqueの仕組みはこうです。GPTがリサーチ結果のドラフトを作成し、Claudeが精度・網羅性・引用の適切さを審査してから、ユーザーに届けられます。

これは人間の編集プロセスに近い考え方です。ライターが原稿を書いて、編集者が事実確認と構成を直してから公開する——あの流れをAIで再現しています。

1つのモデルが生成フェーズを担当し、タスクの計画・情報収集・初稿作成を行います。もう1つのモデルがレビューと改善に専念し、専門的な査読者として最終レポートが作られる前にチェックを入れます。

Councilはどう違う?

CouncilはCritiqueとは別のアプローチです。

Councilは、Researcherの体験の中でAnthropicとOpenAIのモデルの回答を横並びで比較表示します。さらに、どこでモデルが一致しているか、どこで意見が分かれているか、それぞれが何をユニークに提供しているかを示すカバーレターも生成されます。

Critiqueが「2つのAIを直列につないで精度を上げる」仕組みなのに対し、Councilは「2つのAIを並列に走らせて視点の違いを見せる」仕組みです。


Critiqueが何をどう評価するのか、具体的に見てみる

審査の3軸

Critiqueのレビューは、ルーブリックベース(評価基準に沿った構造化レビュー)で行われます。具体的には以下の3つの観点でチェックが入ります。

ソースの信頼性 使われている情報源が、そのリサーチ文脈に適切かどうかを評価します。検証可能で権威のあるソースが使われているかを確認し、怪しい引用をはじいていきます。

レポートの網羅性 リクエストの意図に対して、最終レポートが十分に答えているかを判断します。「聞いたこと全部に答えているか?ユニークな洞察はあるか?」という視点で見ます。

根拠の厳密さ すべての主要な主張が信頼できるソースに紐付けられているかを確認します。ここが甘いと、もっともらしく聞こえる嘘(ハルシネーション)が紛れ込みます。

なぜ分業がハルシネーション対策になるのか

ハルシネーションとは、AIが「それらしく聞こえるが実際には間違っている情報」を生成してしまう問題です。Microsoftは第二の検証レイヤーを導入することで、このリスクを減らし、リサーチや文書作成・意思決定にAIを活用するユーザーの信頼を高めようとしています。


ベンチマーク結果:競合を上回る数字が出た

DRACOとは何か

DRACOは「Deep Research Accuracy, Completeness, and Objectivity(深層リサーチの精度・網羅性・客観性)」の略で、AIリサーチの品質を測る業界標準のベンチマークです。

100件の複雑なリサーチタスクが10のドメインにまたがって用意されており、このベンチマークは2026年2月にPerplexityと研究者たちが公開したものです。

Critiqueはどれだけ改善したか

Researcher with Critiqueは、DRACOの集計スコアで+7.0ポイント(SEM ±1.90)を達成し、論文中で最高スコアを記録していたPerplexity Deep Research(Claude Opus 4.6モデル)を13.88%上回りました。

さらに、MicrosoftはResearcher with Critiqueが、Perplexity Deep Research、Claude Opus、Gemini Deep Research、OpenAI Deep ResearchをすべてDRACOベンチマークで上回ったと主張しています。

どの評価軸が最も改善したかも公開されています。

評価軸 スコア改善
分析の幅と深さ(Breadth and Depth) +3.33
レポートの品質(Presentation Quality) +3.04
事実精度(Factual Accuracy) +2.58
引用品質(Citation Quality) 改善(既存ソースの活用改善)

すべての改善は統計的に有意(paired t-test、p < 0.0001)とされています。


競合のDeep Researchツールとどう違うのか

Critiqueを含む主要なAIリサーチツールを比較してみます。

ツール アプローチ 強み 弱み
Microsoft Researcher + Critique GPT生成→Claude審査(逐次マルチモデル) 高い事実精度、企業向けM365統合 Frontierプログラム限定(現時点)
Google Gemini Deep Research 単一モデル、100件以上のソース参照 Google Docsとの連携、大量ソース参照 SEOバイアスの影響を受けやすい
OpenAI ChatGPT Deep Research o3モデル、拡張思考 深い分析力、コード実行も可 高価格、時間がかかる(5〜30分)
Perplexity Deep Research リアルタイム検索特化 高速、引用の透明性が高い 長文分析より事実検索寄り

このマルチモデルアプローチは、DRACOベンチマークで13.8%の改善をもたらし、OpenAI・Google・Perplexity・Anthropic単体のDeep Researchツールをすべて上回ったとMicrosoftは主張しています。

とはいえ、これはMicrosoft自身が評価したデータなので、独立した第三者検証が出るまでは「自社テストの数字」として見ておく方が誠実でしょう。


実際の業務でどう使えばいいのか

エンジニア向けユースケース

技術選定・調査レポートの作成
新しいフレームワークや技術スタックを評価するとき、CritiqueのResearcherに「〇〇 vs △△の比較レポートを作成して、セキュリティ・パフォーマンス・エコシステムの観点から評価してください」と依頼するだけで、引用付きの信頼度の高いレポートが出てきます。従来なら数時間かかっていた一次調査をかなり圧縮できます。

アーキテクチャ選択の根拠資料作成
上司や顧客へのアーキテクチャ提案で「なぜこの技術を選んだか」の根拠が必要な場面は多いです。Critiqueで事実確認済みのレポートを生成することで、プレゼン資料の信頼性を高めやすくなります。

セキュリティ・脆弱性調査
特定のライブラリやサービスに関するCVE(既知の脆弱性情報)や最新のセキュリティ動向を調査する際、引用が確認できる状態でまとめてもらえるのは実用的です。

ビジネスパーソン向けユースケース

市場調査・競合分析
新規事業の検討や競合他社の動向把握に使えます。Councilを使えば、同じ質問に対してAnthropicモデルとOpenAIモデルがどこで意見を異にするかを横並びで確認でき、単一モデルでは気づかなかった視点が得られます。

意思決定の根拠整理
経営層への提案資料を作る際、「このデータ、本当に正しいの?」という不安を減らしてくれます。Critiqueによってソースの信頼性が審査されているため、根拠として提示しやすくなります。

海外市場・規制情報のリサーチ
グローバルな法規制や市場環境の調査は情報が広範囲にわたります。10ドメインにまたがる複雑なタスクで検証された設計は、こういった幅広いリサーチに向いています。


注意点と現時点の制約

正直なところ、Critiqueは万能ではありません。使う前に知っておくべき点をまとめます。

利用制限がある
CritiqueとCouncilは現在、Microsoft 365 CopilotのFrontierプログラム(早期アクセスプログラム)で広く提供されています。一般ユーザーがすぐに使えるわけではなく、Frontierプログラムへの参加が必要です。

ライセンスコストがかかる
MicrosoftのResearcherエージェントはMicrosoft 365 Copilotライセンスを持つ全員が使えます。ただし、Microsoft 365 Copilotは1ユーザー月額約30ドルのライセンスが必要で、個人や中小企業にはコストが重くなる可能性があります。

評価は自社テスト
DRACOベンチマークでの優位性を強調していますが、今回の数値はMicrosoftが自己評価したものです。評価にはOpenAIのGPT-5.2をLLMジャッジとして使用し、ベンチマーク論文と同じプロトコルを適用していると述べていますが、独立した検証を待ちたいところです。

ドメインによっては改善が限定的
統計的に有意な改善が見られたのは10ドメインのうち8つで、AcademicとNeedle-in-a-Haystackの2ドメインは分散が大きくp値が高く出ました。すべての用途で均一に効果が出るわけではありません。

双方向ワークフローはまだ開発中
現在はGPTが生成してClaudeがレビューする一方向のフローですが、Microsoftは将来的にこのワークフローを双方向にする予定と述べています。つまり、ClaudeがドラフトしてGPTが審査するパターンも検討中ということです。


マルチモデル時代の先にあるもの

CritiqueとCouncilの登場は、「どのAIが一番賢いか」という競争から「どうAIを組み合わせるか」という段階への移行を示しています。

Microsoftの担当VP、Nicole Herskowitz氏はReutersとのインタビューで「さまざまなベンダーのモデルをCopilotに搭載することは魅力的だが、それを次のレベルに引き上げ、モデルが協調して動くことでお客様が恩恵を受けられるようにしたい」と語っています。

ライバル会社のAIを組み合わせて使う——これは、ツール選定においても参考になる視点です。「最高のAI」を1つ選ぶより、「それぞれの得意を使い分けるシステム」の方が現実的に優れた成果を出せる時代になっています。

エンジニアとしての視点で言えば、マイクロサービスアーキテクチャの考え方に近いと感じます。1つのモノリスに全部やらせるより、役割が明確に分かれたサービスを組み合わせる方がスケーラブルで堅牢になる——AIの世界でも同じ発想が使われ始めています。

現時点ではFrontierプログラム限定ですが、Microsoft 365 Copilotを契約している組織なら、参加資格を確認して早めに試しておく価値はあります。ツールが一般化する前に使い方を掴んでおくのが、今の時代に情報をキャッチアップする一番の近道だと思っています。

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

当サイトは、アフィリエイト広告を使用しています。