「AIを使えば研究が速くなる」という話は耳にタコができるほど聞いた。でも、具体的にどのくらい使えるのか、定量的に示したデータはなかなかない。Anthropicが2026年4月に公開したBioMysteryBenchの評価結果は、その問いに正面から答えている。
結論から先に言おう。最新モデルは、人間の専門家パネルが解けなかった問題の一部を、AIが解いてしまった。これは「補助ツール」という枠を超えた話だ。
このレポートでは、BioMysteryBenchとは何か、どんな評価を行ったのか、そして「Claudeが人間の研究者より賢い場面」は何を意味するのかを、エンジニアにもビジネスパーソンにもわかるよう整理する。
- バイオインフォマティクスの評価がなぜ難しいのか
- BioMysteryBenchはこの3つをどう解決したか
- 評価結果:人間と比べてどうだったか
- 「解けた」の中身:再現性の格差
- 他のAIベンチマーク・ツールとの比較
- エンジニアへの示唆:何が実務に使えるか
- ビジネスパーソンへの示唆:製薬・創薬現場で何が変わるか
- 注意点とデメリット:過信は禁物
- まとめ:「AIアシスタント」から「AIコラボレーター」へ
バイオインフォマティクスの評価がなぜ難しいのか
「正解が一つじゃない」問題
プログラムのバグ修正なら「直った」「直ってない」でシンプルに正解が出る。でも生物学の研究は違う。糖尿病薬メトホルミンの効き方を調べるにも、遺伝子解析で攻めるか、腸内細菌叢を見るかは研究者によって変わる。アプローチが違っても、どちらも「正しい研究」だ。
これがAIベンチマークの設計を難しくする。「人間の研究者はこのルートで解いた」を正解にしてしまうと、別ルートで正しい答えに辿り着いたAIが不合格になってしまう。
「ノイズまみれのデータ」問題
生物学データはきれいじゃない。研究の設計がほんの少し違うだけで、まったく反対の結論が出ることがある。2011年のある研究はメトホルミン奏功に関わる遺伝子変異を「ある」と報告し、翌年別のグループが同じ変異を調べて「ない」と報告した。どちらの研究も正当な科学だ。ノイズがそれほど大きい。
AIが出した答えを「科学者の結論と一致するか」で評価すると、どの科学者の結論を使うかで評価がブレてしまう。
「人間が解けない問題を解かせたい」問題
本当にAIに期待するのは、人間だけでは解けなかった問題への挑戦だ。でも「人間が解けない問題」を正しく評価するには、答えがどこかに存在していないといけない。ここが一番の難所だった。
BioMysteryBenchはこの3つをどう解決したか
手法ではなく答えで採点する
BioMysteryBenchが採用したのは「最終的な答えが正しいかだけを見る」採点方式だ。どんなツールを使っても、どんな分析経路をたどっても構わない。Claudeにはpipやcondaでの追加ツールインストール、NCBIやEnsemblなどの公開データベースへのアクセスが許可されており、本物の研究者が使う環境に近い状態でタスクに取り組める。
「検証可能な客観的事実」だけを問題にする
問題の答えは、科学者の主観的な解釈ではなく、実験や臨床で独立検証された事実から作られている。たとえば:
- 「このRNA-seqデータは、ヒトのどの臓器から採取した細胞か?」 → サンプルのメタデータがPCR検査で確認済み
- 「このゲノム配列には何のウイルスが感染しているか?」 → 臨床PCR結果と対照
答えが「研究者の判断」ではなく「実験事実」なので、採点に主観が入らない。
「人間が解けなくていい問題」を含める
各問題には、ドメイン専門家が「答えはデータの中にある」と確認した検証ノートブックが付属している。だから「解けなかった」=「問題が壊れている」ではない。「解けなかった」=「難しい」だと確認した上で、そういう問題もベンチマークに含めた。これが後述する「超人的な問題」につながる。
問題セットは99問。ゲノム解析(WGS)、シングルセルRNA-seq、ChIP-seq、メチル化解析、メタゲノミクスに加え、プロテオミクスやメタボロミクスまでカバーしている。
評価結果:人間と比べてどうだったか
人間が解けた76問でのパフォーマンス
5人の専門家が各問題に取り組み、1人でも正解すれば「人間が解ける問題」と分類した。76問がこれに該当する。
結果として、Claude Sonnet 4.6は人間の専門家と同等、Opus 4.6はそれを上回る精度を示した。モデルの世代が新しくなるにつれて、スコアが着実に上がっている。
Claudeが人間と同じアプローチを使うこともあった。「訓練データに人間の方法論が豊富に含まれているから」というのが自然な解釈だが、面白いのはそれだけじゃない。
Claudeが全く別のルートで正解に辿り着くケースも観察された。たとえば、ある配列の特性を「特定のデータベースでアノテーション照合する」という人間的アプローチを取らず、配列そのものにあるパターンを直接認識して正解した事例がある。これは、かつてヒトゲノムの最初の真核生物プロモーターが「TATAという配列が遺伝子の上流に繰り返し現れる」という直感的発見で見つかったことと少し似ている。LLMはそういうパターン認識を、前例のないスケールでやれる可能性がある。
人間が解けなかった23問でのパフォーマンス
ここが本番だ。5人の専門家が誰も解けなかった23問で、Claudeはどうだったか。
Claude Sonnet 4.6と上位モデルは、この「人間困難問題」でも有意な正答率を示した。 最上位の実験的モデル(Claude Mythos)は30%の解答率に達した。
Claudeがどうやって解いたか?分析で見えてきたのは2つの戦略だ。
① 膨大な知識の組み合わせ
人間なら文献横断メタ分析や複数データベースの照合が必要な問いに対し、OpusはAIが学習した構造生物学・分子プロファイル・オントロジーの知識を内部で組み合わせて直接答えた。「論文を書いたことはないが、論文100万本を読んだ」という存在ならではの強みだ。
② 複数のアプローチを試して収束点を探す
確信が持てない問題では、異なる複数の手法で検証し、「複数の手法が同じ答えを指している」ときに確信を持って回答する戦略を取った。これは、科学者としてかなり正直なやり方でもある。逆に言えば、1つの手法で自信満々に答えているときより、複数検証して収束した答えの方が信頼できるという示唆でもある。
ただし、知識の豊富さがかえって裏目に出た事例もあった。「自分が知っている『よくあるパターン』」に引き寄せられ、実際のデータを素直に読むべき場面でそれができなかったケース。これは人間でも起こる「専門家の先入観」問題と本質的に同じだ。
「解けた」の中身:再現性の格差
Anthropicは採点の裏側も詳しく調べた。各問題は5回試行して、何回正解したかを記録している。
人間が解けた問題セットでは、Opus 4.6が解けた問題の86%は「5回中4回以上」解けた。つまり、安定して解ける問題は本当に安定している。
人間困難問題セットでは、この構造が崩れる。正解できた問題のうち、「5回中1〜2回しか解けなかった(偶然に近い)」ものが44%を占めた。Sonnet 4.6でこれがさらに顕著で、「運よく正解した」割合が56%に達した。
つまり、精度の差より「再現性の差」の方がより本質的な話をしている。モデルが確かに知っている問題は何度聞いても答えられる。まだフロンティアにある問題は、たまたま正しい思考経路を辿ったときだけ正解できる、という状態だ。
競合ベンチマークのCompBioBench(Genentech/Roche、2026年4月)でも同様の傾向が確認されている。Claude Code (Opus 4.6) は全体で81%、最難問では69%の精度を示し、BioMysteryBenchの結果を独立して裏付けている。
他のAIベンチマーク・ツールとの比較
| ベンチマーク/ツール | 評価対象 | 特徴 | 限界 |
|---|---|---|---|
| BioMysteryBench | バイオインフォマティクス | 実データ、方法非依存採点、超人的問題含む | 生物学分野に特化 |
| BixBench | 計算生物学エージェント | 50+の実世界シナリオ、300問 | 開放回答で17%(旧世代) |
| GPQA | 生物/物理/化学の知識推論 | 「Google-proof」な大学院レベル問題 | 知識テスト中心、実作業なし |
| LAB-Bench | 生物学的知識作業 | 文献読解・プロトコル推論 | エージェント的実行なし |
| CompBioBench | 計算生物学パイプライン | ゲノミクス〜機械学習の100問、合成データ使用 | タスク範囲が限定的 |
| SciGym | 仮想生物学実験 | シミュレーター内で仮説→実験→結論 | 実データとのギャップ |
BioMysteryBenchのポジションは「実データ × エージェント的解法 × 客観的採点 × 超人的問題」の組み合わせにある。既存ベンチマークのどれか一つとかぶるところはあっても、4つ全部揃えているのはこれだけだ。
エンジニアへの示唆:何が実務に使えるか
バイオインフォマティクスパイプラインへの組み込み
BioMysteryBenchでのClaudeの評価環境は、実際の研究環境にかなり近い。NCBIやEnsemblからのデータ取得、Pythonスクリプトでの前処理、標準的なバイオインフォツールの実行という流れは、そのまま自動化パイプラインに転用できる。
具体的に使えそうな場面: - scRNA-seqのクラスタリング後のセルタイプアノテーション - ChIP-seqピークからのセルタイプ推定 - 塩基配列からのウイルス・菌種同定 - WGSデータを用いた家系解析の自動化
これらはいずれも、BioMysteryBenchで実際に問われたタイプの問題だ。
Claude for Life Sciencesとの接続
Anthropicは2025年10月に「Claude for Life Sciences」を公開しており、PubMed、Benchling、BioRender、Synapse.orgといったプラットフォームと直接連携できる。ゲノムデータの処理・分析から研究プロトコルの作成まで一貫してサポートする仕組みが整っている。
バイオインフォ分析の自動化を考えている場合、API経由でコードを書くのが一番フレキシブルだが、まずClaude for Life Sciencesのコネクタを触ってみると「どこまで使えそうか」の肌感が掴みやすい。
ハルシネーション対策の実践的ヒント
BioMysteryBenchで見えた「事前知識が仇になるパターン」は、実務でも起こる。特に「よくあるパターン」があるドメインほど、モデルが実データを見ずに「記憶の中の正解」を返しやすい。
対策としては: - 入力データの要約を先にClaudeに作らせ、それを確認してから分析を進める(データをちゃんと見ているかチェック) - 複数のアプローチを試させて、収束する答えかどうかを確認する(Claudeが難問で使った戦略と同じ) - 重要な結論は必ず元データと照合する
ビジネスパーソンへの示唆:製薬・創薬現場で何が変わるか
研究の「前処理」から「仮説立案」まで
製薬企業の研究員が1つの論文仮説を立てるのに、文献調査だけで数週間かかることがある。AIが担えるのは、その情報収集・整理の大部分だ。BioMysteryBenchで示されたのは、Claudeが「ただ検索する」のではなく、膨大な学習データの中にある知識を実データ分析と組み合わせて活用できる、という点だ。
SanofiやGenmabといった大手製薬企業はすでにClaude for Life Sciencesを導入している。バイオインフォマティクス分析の自動化エージェント構築においてClaudeが傑出したリーダーと評価されているという声が出ている。
コスト・スピードへのインパクト
新薬開発の平均期間は10年以上、費用は数千億円とも言われる。AIが担えるのはそのうちの一部だが、特に「分析→仮説」のサイクルを高速化できれば、投資回収の構造が変わりうる。
BioMysteryBenchで示された「専門家パネルが解けなかった問題をAIが解く」という事実は、単なるベンチマークの話ではない。人手では捌ききれなかった量の生物データから意味のある発見を引き出す、という可能性を示している。
注意点とデメリット:過信は禁物
まだ「使いこなし」が必要
BioMysteryBenchの設定では、Claudeは必要なツールを自分で選んでインストールし、データベースへのアクセスも行っている。一方、実際の研究環境では権限管理やデータのセキュリティ、既存のパイプラインとの連携が必要で、「環境を整える」自体に相応のエンジニアリングコストがかかる。
再現性問題はまだ残る
難しい問題での「偶然正解」割合が高い点は実務上のリスクだ。重要な分析をAIに任せる場合は、同じ問いを複数回試行して結果が安定しているか確認するプロセスを組み込むべきだ。
「人間困難問題」の30%は残り70%が解けていない
Claudeが人間困難問題で30%の解答率を示した、という事実の裏は「70%はまだ解けない」だ。ここを誤解すると現場で大きな期待外れが起きる。今のAIは「補助研究者として非常に優秀」であり、「独立した研究者を代替できる」わけではまだない。
評価環境と実環境のギャップ
BioMysteryBenchの問題は「答えが存在することが確認された問題」だ。実際の研究には「答えがあるかわからない問いに取り組む」プロセスが含まれる。ここはまだAIが苦手とする領域で、どんなに性能が上がっても、問いそのものを設定するのは人間の仕事が続く。
まとめ:「AIアシスタント」から「AIコラボレーター」へ
BioMysteryBenchが示したのは、明確なターニングポイントだ。
かつてのAIは「知識検索ツール」だった。プロンプトに答えるが、データを実際に分析することはなかった。次の段階が「コード実行も含めたエージェント」で、そして今、最新世代は「人間の専門家が解けなかった問題を解く」ところまで来た。
ただ、個人的に面白いと思うのはスコアよりも「複数手法を試して収束を確認する」という戦略の話だ。確信がないときにそうやって確認する、という態度は、科学者として正直な態度でもある。ハルシネーションを起こしやすいと言われるAIが、難しい問題では慎重に複数の根拠を積み上げる方向に動いている——その動きを理解して使うと、実務での信頼性がかなり変わってくると思う。
AIが「補助する」のではなく「一緒に考える」存在になりつつある。バイオインフォマティクスはその最前線の一つだ。
BioMysteryBenchのデータセットはHugging Faceで公開されている。関心があれば実際に触れてみてほしい。