「MetaがついにOpenAIやAnthropicに追いついた」——2026年4月8日、そんな見出しがテックメディアを一斉に駆け巡った。
MetaはこれまでLlama(ラマ)シリーズという、誰でも使えるオープンソースのAIモデルを提供してきた。ところが2025年4月にリリースしたLlama 4が「期待外れ」と評価され、開発者コミュニティに失望感が広がった。そこからMetaはわずか9ヶ月でAI開発チームを刷新し、組織ごと作り直して投入したのが、今回の「Muse Spark(ミューズ・スパーク)」だ。
発表直後、Metaの株価は約6.5%上昇した。それだけ市場が「本物」と受け取ったシグナルでもある。
この記事では、Muse Sparkが何者なのか、競合モデルと比べてどんな強みと弱みがあるのか、エンジニアやビジネスパーソンがどう使えばいいのかを、ベンチマークデータも交えながら解説する。
- Muse Sparkはどんなモデルなのか
- 競合モデルとのベンチマーク比較
- 具体的なユースケース:エンジニアとビジネスパーソン向け
- Muse Sparkの注意点とデメリット
- 主要AIモデル全体の立ち位置を整理する
- まとめ:Muse Sparkをどう受け取るか
Muse Sparkはどんなモデルなのか
9ヶ月でゼロから作り直したAIスタック
Muse Sparkが他のモデルアップデートと違うのは、「改善」ではなく「全面作り直し」という点だ。Metaは2025年6月、Scale AIの元CEOであるアレクサンダー・ワン氏を143億ドル(約2兆円)の出資と引き換えに招き入れ、「Meta Superintelligence Labs(MSL)」という新チームを発足させた。このチームが9ヶ月で、AIのインフラ・アーキテクチャ・データパイプラインをすべて刷新した。
「人間の知能を超える超知能(Superintelligence)へ向けた第一歩」——Metaはそうブログに書いた。Muse Sparkはその出発点に位置するモデルだ。
マルチモーダル対応とリーズニングモデルへの転換
これまでのLlamaシリーズは「テキストを入力したら即座に答えを返す」設計だった。Muse Sparkはここを大きく変えた。
- 入力: テキスト・画像・音声に対応
- 出力: 現時点はテキストのみ(画像出力は今後)
- 推論方式: 問題をステップごとに考えながら解く「リーズニング型」に移行
リーズニング型とは、たとえばChatGPTの「o1」シリーズや、Claudeの思考モードに近い動き方だ。複雑な問題を「よし、まずこれから考えよう」と分解しながら解くのが特徴。単純な答えを速く返すだけでなく、「じっくり考えて精度を上げる」ことができるようになった。
3段階の推論モード
Muse Sparkには、問題の難しさに応じて切り替えられる3つのモードがある。
| モード | 用途 | 特徴 |
|---|---|---|
| Instant(インスタント) | 日常的な質問 | 即座に回答。デフォルト設定 |
| Thinking(シンキング) | 複雑な分析・推論 | 時間をかけて深く考える |
| Contemplating(コンテンプレーティング) | 最難関タスク(順次展開予定) | 複数のAIエージェントが並列で推論 |
Contemplatingモードは面白い。一つのAIが順番に考えるのではなく、複数のサブエージェント(小さなAI)が同時に別々の角度から問題を解き、答えを統合する。旅行プランを立てる例で言えば、1つのエージェントが日程を作り、別のエージェントが目的地を比較し、もう1つが子どもに合うアクティビティを探す——それが同時進行する。
競合モデルとのベンチマーク比較
総合スコアは4位、でも「無料で使える」のが最大の差別化
独立評価機関Artificial Analysisのインテリジェンスインデックス(v4.0)では、Muse Sparkは総合52点でトップ5入りを果たした。
| モデル | 総合スコア | 提供元 | 料金(目安) |
|---|---|---|---|
| GPT-5.4 | 57 | OpenAI | 月額$20〜 |
| Gemini 3.1 Pro | 57 | 無料〜(高機能は有料) | |
| Claude Opus 4.6 | 53 | Anthropic | 月額$20〜 |
| Muse Spark | 52 | Meta | 無料 |
| Grok 4.2 | 非公開 | xAI | 有料 |
4位と言うと聞こえが悪いかもしれないが、「無料で使える最高性能モデル」という文脈では断然トップだ。しかも使用トークン数も少ない。同じ評価を完了するためのトークン数は、Muse Sparkが5,800万トークンに対してClaude Opus 4.6は1億5,700万トークン。約2.7倍の差がある。応答速度と推論コストの両面で有利になりやすい。
得意分野:医療・ヘルスケアと図表理解で首位
医療・ヘルス分野のベンチマーク「HealthBench Hard」では、Muse Sparkが42.8点と全モデルトップ。GPT-5.4(40.1点)、Gemini 3.1 Pro(20.6点)を大きく上回った。Metaが1,000人以上の医師と共に医療データセットを構築した成果だ。
グラフや図表の理解を測る「CharXiv Reasoning」では86.4点。Claude Opus 4.6の65.3点、Gemini 3.1 Proの80.2点を超えてトップだった。
苦手分野:コーディングとエージェンティックタスク
正直に言えば、コーディングはまだ弱い。ターミナル操作を伴う複雑なコーディングを評価する「Terminal-Bench 2.0」ではGPT-5.4が75.1点に対して、Muse Sparkは59.0点。16点差は大きい。
抽象的な推論を測る「ARC-AGI-2」でも42.5点とGemini 3.1 Pro(76.5点)やGPT-5.4(76.1点)から大きく離された。
ワン氏自身も「モデルには粗削りな部分がある」と認めており、コーディングと長期エージェンティックシステムを優先改善領域として挙げている。
具体的なユースケース:エンジニアとビジネスパーソン向け
エンジニアがMuse Sparkを使うとしたら
1. 医療・ヘルスケア関連アプリの開発
問診支援、症状の説明、栄養情報の解析——ヘルスケア領域でのAI活用を検討しているなら、現時点で最も性能が高いモデルはMuse Sparkだ。しかもAPIのプレビューアクセスが一部パートナーには開放されている(一般公開は未定)。
2. ビジュアルコーディング・プロトタイプ作成
Muse Sparkは画像から直接ウェブサイトやミニゲームを生成する「ビジュアルコーディング」に対応している。デザインモックアップをカメラで撮って「これをReactコンポーネントにして」という使い方ができる。完成度に限界はあるが、プロトタイプの素材作りには使えそうだ。
3. マルチモーダルデータ処理パイプライン
テキスト・画像・音声を一つのモデルで処理できるため、複数モダリティを扱うシステムの実装コストを下げる可能性がある。ただしAPIが安定化してからの話になるだろう。
ビジネスパーソンがMuse Sparkを使うとしたら
1. ヘルスケア・医療情報の調査補助
「健康診断の結果をAIに見せて解説してもらいたい」という需要は高い。Muse Sparkは画像付きの健康相談にも対応しており、従来のAIより詳しく答えられる場面が増えている。
2. InstagramやFacebookを使ったショッピング
数週間以内にInstagram・Facebook・WhatsAppへのMuse Spark展開が予定されている。特に「ショッピングモード」は、フォローしているクリエイターの投稿やコミュニティの情報を参照しながらコーデ提案や商品比較を行う機能で、SNSユーザーにとっては自然なAI体験になりそうだ。
3. Metaスマートグラスとのシームレスな連携
Ray-Ban Meta AIグラスへの対応も予定されている。眼の前にある商品を見ながら「これ、他のと比べてどう?」と話しかけるような、現実世界に溶け込む使い方が現実的になりつつある。
Muse Sparkの注意点とデメリット
「オープンソース」ではなくなった
これは開発者コミュニティにとって最大の懸念だ。Metaはこれまで「オープンソースAIこそが正しい道」と主張し、Llamaシリーズを無料公開してきた。ところがMuse Sparkはクローズドソース。APIも現時点では一部パートナーのみへのプレビュー提供にとどまる。
MetaはSNS上で「将来のバージョンはオープンソース化を検討する」と述べているが、時期の明言はない。「閉じる気はなかったはずでは」という開発者側の不満は根強い。
プライバシーの懸念
Muse Sparkを使うにはFacebookまたはInstagramのアカウントでのログインが必要だ。MetaはSNS上のユーザー行動データを広告に活用してきた歴史がある。AI(特に医療・健康情報)とSNSアカウントが紐づく構造への不安は、特に医療従事者や企業ユーザーにとって無視できないポイントだ。
ベンチマーク操作の前科
Fortuneが指摘しているように、MetaはかつてAIモデルのベンチマーク結果を実際よりよく見せた実績がある。今回の数値がそのまま実運用に反映されるかどうか、独自に検証する姿勢が大切だ。
API提供は「まだ」
コードに組み込んで本格活用するためのAPIは、現時点では一般公開されていない。「試したい」「既存システムに組み込みたい」という目的には、まだ早い状態だ。
主要AIモデル全体の立ち位置を整理する
2026年4月時点のAIモデル地図
Muse Sparkの登場で、上位モデルの勢力図がまた変わった。シンプルに整理するとこうなる。
| 強み | モデル |
|---|---|
| コーディング・開発タスク | Claude Opus 4.6(SWE-bench Verified 80.8%) |
| 自律的なエージェントワークフロー | GPT-5.4(GDPval-AA Elo 1,676) |
| 価格対性能比・推論タスク | Gemini 3.1 Pro(APIコスト最安水準) |
| 医療・ヘルスケア・マルチモーダル | Muse Spark(HealthBench Hard 42.8、無料) |
| オープンウェイト・自社ホスティング | Llama 4(Metaの従来路線、引き続き利用可) |
「1つのモデルで全部やる」より「タスクに応じてモデルを使い分ける」設計が、2026年の現実的な戦略になってきた。
Anthropic「Claude Mythos」との同時代感
同じ日(2026年4月8日)、AnthropicはClaude Mythosというモデルのコーディング性能を公開した。こちらは強力すぎて初期リリースをセキュリティ研究者に限定しているという。AIの性能競争は、もはや一社だけ追えばいい時代ではなくなっている。
まとめ:Muse Sparkをどう受け取るか
Muse Sparkは「完成品」ではなく「宣言」だと思う。Metaが本気でAIの頂点を狙いに来た、その出発点として公開されたモデルだ。
現時点での実力は正直まだGPT-5.4やClaude Opus 4.6の後塵を拝している部分も多い。ただ、医療・ヘルス系ベンチマークで全モデルトップを取ったこと、無料で使える最高性能モデルであること、そして30億人以上が使うMetaのプラットフォームに展開予定であること——この3点の組み合わせは、他のモデルにはない独自の強みだ。
エンジニアにとっての現実的なアクションとしては、まずmeta.aiで試してみることだろう。HealthBench系のタスクや図表理解を含む業務があれば、他のモデルとの比較実験を今すぐ始める価値がある。コーディング中心の用途ならClaudeやGPT-5.4を引き続き使い、APIが整ったタイミングでMuse Sparkを組み込む判断をすればいい。
AIの戦線は一気に広がった。Metaが加わったことで、この競争はまた面白くなった。