「ローカルでAIを動かしたいけど、性能がイマイチで結局クラウドAPIに頼ってしまう」——そんな経験、ありませんか?
データをクラウドに送りたくない。APIコストを抑えたい。オフライン環境でも使いたい。エンジニアとしてそういう場面は、思った以上に多いはずです。
2026年4月2日、Googleはその状況をひっくり返す可能性を持ったモデルを公開しました。Gemma 4です。
前世代のGemma 3からの進化は「改善」というレベルではありません。数学の競技問題(AIME 2026)の正答率は20.8%から89.2%へ。競技プログラミングの評価指標(Codeforces ELO)は110から2150まで跳ね上がっています。ローカルで動くオープンモデルでここまでの数字が出るとは、正直驚きました。
この記事では、Gemma 4の全体像から各モデルの選び方、実際の起動手順、他の主要オープンモデルとの比較、そして実務でどう使えるかまでを丸ごとまとめています。「とりあえず動かしてみたい」という方にも、「プロダクトに組み込むか検討したい」という方にも使えるように書きました。
- Gemma 4とは何か?前世代から何が変わったのか
- 4種類のモデル構成:どれを選ぶべきか
- Gemma 4の主要機能:エンジニア視点で何ができるか
- 他のオープンモデルとの比較
- 実際にローカルで動かす手順
- 実務での活用シーン:エンジニア・ビジネスパーソンの場合
- 注意点・デメリット:冷静に見ておきたいこと
- まとめ:Gemma 4をどう位置づけるか
Gemma 4とは何か?前世代から何が変わったのか
GemmaとGeminiの関係を整理する
まずGemmaというシリーズの立ち位置を理解しておきましょう。
GoogleにはGeminiという最上位のAIモデルがあります。ChatGPTで言えばGPT-4oのような存在で、Googleのサーバー上でAPIを通じて使います。非常に高性能ですが、データを外部に送る必要があり、従量課金もかかります。
一方のGemmaは、Geminiの研究基盤と技術から生まれた「オープンモデル」です。重みデータを自分のマシンにダウンロードして、手元で動かせます。Gemma 4はGemini 3と同じ研究技術をベースにしていると公式に明言されており、Gemini 3と同じ世界水準の研究と技術から構築されたと説明されています。
つまり、「Googleの最新研究成果を、自分のハードウェアでタダで動かせる」というのがGemmaシリーズのコンセプトです。
Gemma 3からGemma 4への変化は「別物レベル」
Gemma 4はGemma 3の20.8%と比較して、AIME 2026で89.2%のスコアを記録しています。コーディングベンチマークスコアはCodeforcesで110 ELOから2150に跳ね上がりました。
これは段階的な改善ではなく、モデルの「世代」が変わった感覚です。Gemma 3から Gemma 4への改善は最大級で、オープンモデルの空間において1世代でこれほどの向上は珍しいと評価されています。
また、ライセンスも大きく変わりました。Gemma 3は独自ライセンスで商用利用に制限がありましたが、Gemma 4はApache 2.0ライセンスになっています。これはQwen 3.5と同じ最も寛容なライセンスで、改変や商用利用が自由にできます。競合のLlama 4は月間アクティブユーザー7億人超の場合に制限がかかるため、Llama 4のコミュニティライセンス(MAU上限700万と利用ポリシー)が3ファミリーの中で最も制限的になりました。
4種類のモデル構成:どれを選ぶべきか
エッジ向け:E2BとE4B
エッジ向けのE2BとE4Bモデルは、最大限の計算効率とメモリ効率のために設計されており、スマートフォン、Raspberry Pi、NVIDIA Jetson Orin Nanoのようなエッジデバイスでオフライン完全動作を実現します。
E2B(Effective 2B)は、実効パラメータ数23億の超軽量モデルです。「Effective」の名のとおり、総パラメータ数(約51億)のうち推論時に実際に動く部分を23億に絞っています。量子化(4bit)版なら約3.2GBのメモリで動き、テキスト・画像・音声の3モダリティに対応しています。コンテキスト長は128Kトークン。
E4B(Effective 4B)は、E2Bよりひと回り強力で、個人的にはローカル入門として最もバランスが取れていると思います。E4Bは名前の「E4B」が"Efficient 4B"を意味しており、パラメータ数は約4Bですが、実際の推論精度は26Bクラスに匹敵すると報告されています。ダウンロードサイズは9.6GBで、16GB以上の統合メモリを持つApple Silicon Macであれば快適に動作します。
大型モデル:26B MoEと31B Dense
26B A4Bは、MoE(Mixture of Experts)アーキテクチャを採用したモデルです。MoEとは「入力に応じて使う専門家(エキスパート)を切り替える」設計のことで、全パラメータを毎回使わないので計算コストが低くなります。26B MoE モデルは推論中に総パラメータの一部(3.8億)のみをアクティブにし、特別に高速なトークン処理速度を実現します。これにより、単一の80GB NVIDIA H100 GPUに収まります。
31B Denseは全パラメータを毎回使う構成で、最も高い生の品質を持つモデルです。Arena AIでGemma 4-31BはオープンモデルとしてArenaの世界第3位、26B A4Bは第6位にランクインしています。
| モデル | 実効パラメータ | RAM目安(4bit) | コンテキスト長 | 主な用途 |
|---|---|---|---|---|
| E2B | 2.3B | 約3.2GB | 128K | モバイル・IoT・常時起動エージェント |
| E4B | 4B | 約5GB | 128K | ノートPC・開発用途の入門 |
| 26B A4B | 4B(実効) | 約15.6GB | 256K | ワークステーション・推論重視 |
| 31B Dense | 31B | 約17.4GB | 256K | 最高精度が必要なタスク・ファインチューニング |
Gemma 4の主要機能:エンジニア視点で何ができるか
ネイティブ関数呼び出しと構造化出力
Gemma 4の最大の実用上のポイントは、Function Calling(関数呼び出し)のネイティブサポートです。Gemma 3にはなかった機能で、これがあるとエージェント開発の実装難易度がぐっと下がります。
たとえば外部APIを呼び出すエージェントを作る場合、モデル自身が「どの関数を呼ぶか」「引数は何か」を判断してJSONで返してくれます。後工程でパースして実行するだけでいい。これがないと、プロンプトに工夫を重ねても安定した関数呼び出しが難しく、実運用には使いにくかった。
ネイティブでの関数呼び出し、構造化JSON出力、システム命令のサポートにより、異なるツールやAPIと連携して信頼性の高いワークフローを実行できる自律エージェントを構築できます。
コード生成能力の大幅向上
31B DenseのAIME 2026での正答率は20.8%から89.2%、LiveCodeBench v6は29.1%から80.0%に伸びています。
LiveCodeBenchは実際のコーディングコンテスト問題を使ったベンチマークです。29%から80%への改善は、「動くコードが書けるかどうか」のレベルが根本的に変わったことを意味します。Gemma 4はオフラインでの高品質なコード生成をサポートし、ワークステーションをローカルファーストのAIコーディングアシスタントに変えます。
マルチモーダル対応:テキスト・画像・音声
すべてのモデルが動画と画像をネイティブに処理し、可変解像度をサポートし、OCRやチャート理解などの視覚タスクで優れた性能を示します。E2BとE4Bモデルは音声認識と理解のためのネイティブ音声入力機能を備えています。
31Bと26Bモデルはテキストと画像・動画のみで音声入力はありません。音声もローカルで処理したい場合はE4Bを選ぶ必要があります。
140言語対応と256Kトークンコンテキスト
140以上の言語でネイティブに訓練されており、エッジモデルは128Kのコンテキストウィンドウを、大型モデルは256Kを持ちます。
256Kトークンというのは、日本語で概ね15〜20万字程度。中規模のコードベース全体や、100ページ超の技術ドキュメントを一度に読み込ませられるサイズです。ローカルモデルでここまでの長文対応は、これまでほとんどなかった。
他のオープンモデルとの比較
Gemma 4 vs Llama 4 vs Qwen 3.5
| 項目 | Gemma 4 31B | Llama 4 Scout | Qwen 3.5 27B |
|---|---|---|---|
| ライセンス | Apache 2.0(制限なし) | Community(700M MAU制限あり) | Apache 2.0(制限なし) |
| MMLU Pro | 85.2% | 非公開 | 86.1% |
| AIME 2026 | 89.2% | 未公開 | 未公開 |
| GPQA Diamond | 84.3% | 未公開 | 85.5% |
| コンテキスト長 | 256K | 10M(Scout) | 128K |
| マルチモーダル | 画像・動画 | 画像 | 画像 |
| 音声入力 | E2B/E4Bのみ | なし | なし |
| エッジ対応 | E2B/E4B(5GB〜) | 非対応 | 0.8B〜 |
| Arena AIランキング | 3位(31B) | 非公開 | 上位 |
Qwen 3.5 27BはMMILU Pro(86.1%対85.2%)とGPQA Diamond(85.5%対84.3%)でGemma 4 31Bをわずかに上回っています。一方でGemma 4 31Bは数学競技ベンチマーク(AIME 2026: 89.2%)と競技プログラミング(Codeforces ELO: 2150)で優位です。
日本語の精度については、現時点ではQwen 3.5の方が評価が高い場面もあります。英語中心のタスクや速度重視ならGemma 4 E4B、日本語重視ならQwen 3.5という使い分けが現実的で、今後のコミュニティベンチマークの蓄積を見ながら判断するのがよいという見解もあります。
中国勢(Alibaba Qwen 3.5、Zhipu AI GLM-5、Moonshot AI Kimi K2.5)にはわずかに及ばないものの、OpenAIのオープンモデルGPT-OSS-120Bは大きく上回っています。
API経由のクラウドAIとの比較
「結局クラウドAPIの方がいいんじゃないの?」という疑問は正直あります。正確に言えば、用途次第です。
| 観点 | Gemma 4(ローカル) | クラウドAPI(GPT-4oなど) |
|---|---|---|
| データプライバシー | 完全にローカル、外部送信なし | データがクラウドへ |
| コスト | 初期ハードウェアのみ、ランニング無料 | 従量課金(長期・大量利用は高額) |
| レイテンシ | 自前ハードウェアに依存 | ネットワーク遅延あり |
| 生の性能 | 最上位モデルには劣る場面も | GPT-4oレベルが使える |
| オフライン対応 | 完全対応 | 不可 |
| カスタマイズ | ファインチューニングが自由 | APIの制約内のみ |
機密情報を扱う業務、オフライン環境での稼働、コスト削減が優先の場面では、Gemma 4のようなローカルモデルが現実解になります。
実際にローカルで動かす手順
まずはOllamaで試す(推奨)
最も手軽な入り口はOllamaです。最初のローカル実行はOllamaかHugging Face Transformersから入るのが最も実用的で、Ollamaは環境構築が軽く、量子化済みモデルを使ってCPUや小さめのマシンでも試しやすいです。
Gemma 4は2026年4月2日にリリースされ、OllamaはリリースからほぼすぐにGemma 4の4つのモデルバリアントすべてを完全にサポートしました。
# Ollamaのインストール(Mac)
brew install ollama
# E4Bモデルのダウンロードと起動(16GB RAM以上推奨)
ollama run gemma4:e4b
# 26B MoEモデル(32GB RAM以上推奨)
ollama run gemma4:26b-a4b
# APIとして使う場合
ollama serve &
curl http://localhost:11434/api/generate -d '{
"model": "gemma4:e4b",
"prompt": "Pythonでバブルソートを実装してください",
"stream": false
}'
E2BとE4Bは5GB RAM(4-bit)または15GB(フル16-bit精度)で動作します。Gemma 4-26B-A4Bは18GB(4-bit)または28GB(8-bit)で、Gemma 4-31Bは20GB RAM(4-bit)または34GB(8-bit)が必要です。
LM Studioで試す(GUI派向け)
コマンドラインが苦手な方にはLM Studioがおすすめです。GUIでモデルを検索してダウンロードし、チャット画面で試せます。LM StudioはGemma 4のエコシステムでサポートされているツールの一つです。
- lmstudio.ai からLM Studioをダウンロード
- 左のサーチバーで「gemma4」と検索
- 使いたいサイズを選んでダウンロード
- チャットタブで即利用開始
Google AI Studioで試す(クラウド経由)
手元のマシンスペックが足りない場合は、まずGoogle AI Studioでウェブから試せます。Google AI Studioでは31Bと26B MoEモデルが利用できます。無料枠があり、ローカル環境なしでGemma 4の感触をつかむのに便利です。
実務での活用シーン:エンジニア・ビジネスパーソンの場合
エンジニア向けユースケース
プライベートなコードレビューアシスタント
社内の機密コードをクラウドに送らず、ローカルでコードレビューや補完ができます。GitHubのコードベース全体(数十ファイル)を256Kトークンのコンテキストに収めて、「この実装に問題はあるか?」と問い合わせるパターンです。
プロンプト例: 以下のPythonコードを読み、パフォーマンスの改善点とセキュリティ上の懸念を 日本語で説明してください。 [コード全体をここに貼り付け]
ローカルエージェントの構築
Function Callingを使って、ファイル操作・コマンド実行・API呼び出しを自律的にこなすエージェントを作れます。外部サービスに頼らず、自社サーバー上だけで完結するエージェントシステムの構築が現実的になりました。
オフライン対応のコーディングアシスタント
Gemma 4はオフラインでの高品質なコード生成に対応し、IDEやコーディングアシスタントとしてワークステーションで動作します。Android StudioやVS CodeのローカルLLM連携として使うケースも広がっています。
ビジネスパーソン向けユースケース
社内ドキュメントのローカル要約・検索
機密性の高い稟議書・会議議事録・設計仕様書を、外部サービスに送らず手元で要約・検索できます。RAG(Retrieval-Augmented Generation)システムと組み合わせれば、社内ナレッジベースへの自然言語質問応答も実現できます。
議事録の自動構造化
E2B/E4Bの音声入力機能を使えば、会議音声をそのままモデルに渡して議事録に変換する処理も、ローカルで完結します。音声データが社外に出ないのは、コンプライアンス上の大きなメリットです。
多言語対応のローカル翻訳・文書整理
140以上の言語でネイティブに訓練されており、グローバルなユーザー向けの高性能なアプリケーションを構築できます。海外ベンダーとのやりとりや、多言語ドキュメントの整理に使えます。
注意点・デメリット:冷静に見ておきたいこと
日本語性能はまだ様子見
ベンチマークで高いスコアを出している一方で、日本語の細かいニュアンスへの対応はまだ評価データが少ない段階です。英語中心のタスクや速度重視ならGemma 4 E4B、日本語重視ならQwen 3.5という使い分けが現実的で、今後のコミュニティベンチマークの蓄積を見ながら判断するのがよいという見解があります。日本語で本格的に使う前に、自分のユースケースで実際に試すことをおすすめします。
MoEアーキテクチャの起動遅延
MoEアーキテクチャの特性上、最初のトークン生成(プリフィルフェーズ)がDenseより若干遅い場合がありますが、連続するトークン生成(デコードフェーズ)はスムーズです。リアルタイム性が求められるインタラクティブな用途では、この点に注意が必要です。
Function Callingの認可記録問題
関数呼び出しを実際の展開に使う場合、モデルが関数呼び出しを生成した際に、その特定のアクションを人間の主体が承認したという検証可能な記録が現時点では存在しないという課題があります。侵害されたシステムプロンプトや注入された指示が、ツールインターフェースで正規の委任と区別できない呼び出しを生成する可能性があります。本番環境でエージェントに重要な操作を委ねる場合は、別途承認フローの設計が必要です。
ハードウェア要件の現実
31Bや26B A4Bを快適に動かすには、M2 Pro以上のMac(32GB)か、NVIDIA RTX 4090クラスのGPUが必要です。一般的なビジネスPCでは荷が重い。E4Bなら16GBメモリのノートPCで動くので、まず手元で試すならE4Bからというのが現実的な出発点です。
Qwen 3.5に劣る場面もある
中国のAIモデル(Alibaba Qwen 3.5、Zhipu AI GLM-5、Moonshot AI Kimi K2.5)にはわずかに及ばない評価もあります。「絶対にGemma 4が最強」というわけではなく、用途によっては他のモデルの方が向いている場合もあります。
まとめ:Gemma 4をどう位置づけるか
Gemma 4は、ローカルで動くAIモデルの「使えるレベル」を大きく引き上げた一手です。Apache 2.0ライセンスで商用利用が自由になり、エッジ向けの軽量モデルから31B級の高性能モデルまでを一つのファミリーで揃えた。Function Callingのネイティブ対応で、エージェント開発のハードルも下がりました。
個人的に注目しているのは、このモデルが「データプライバシー」と「性能」を両立し始めたという点です。これまでローカルLLMは「性能を妥協してでも社内に置く」選択でしたが、Gemma 4はその前提を崩しつつあります。
まず試すならOllamaでollama run gemma4:e4bを走らせてみてください。16GBのメモリがあれば今すぐ動かせます。使ってみて、自分のユースケースに合うかどうかを判断するのが一番早い。
ローカルAIが「選択肢の一つ」から「標準的な選択肢」になる日は、思ったより近いかもしれません。