「テキスト読み上げAIって、なんか機械っぽいんだよな」
そう感じている人に届けたい。2026年4月15日、Googleが公開した Gemini 3.1 Flash TTS は、従来のTTS(Text-to-Speech、テキスト読み上げ)とはまったく別物だ。
これまでのTTSは「テキストを音声に変換するだけ」のツールだった。声の温度感、間の取り方、感情のニュアンス——そういうものは人間のナレーターに頼るか、何十テイクも録り直すしかなかった。
Gemini 3.1 Flash TTSはそこを変える。テキストの中に [excited] や [whispers] といった「音声タグ」を埋め込むだけで、感情や声量を細かく制御できる。Googleはこれを「AIへの演技指導」と表現している。
この記事では、Gemini 3.1 Flash TTSの全貌を整理する。どんな機能があって、何ができて、どう使えばいいのか。開発者にもビジネス担当者にも、具体的なイメージをつかんでほしい。
- Gemini 3.1 Flash TTSとは何か——従来のTTSと何が違うのか
- 音声タグ(Audio Tags)の仕組みと使い方
- スペック一覧——70言語、30種類のボイス、マルチスピーカー
- 競合サービスとの比較——ElevenLabs・OpenAI・Amazon Pollyと何が違うか
- ユースケース——エンジニアとビジネスパーソン別に考える
- SynthID透かしと安全性——生成AIオーディオの信頼性をどう担保するか
- 注意点とデメリット——使う前に把握しておくべきこと
- Google AI Studioで今すぐ試す手順
- まとめ——TTS市場の重心が動いた
Gemini 3.1 Flash TTSとは何か——従来のTTSと何が違うのか
「声を選ぶ」から「演技を指示する」へ
従来のテキスト読み上げAIは、シンプルだった。声のトーンをあらかじめ選んで、テキストを流し込む。出てくる音声は均一で、感情の起伏がほぼない。
Gemini 3.1 Flash TTSはアプローチが根本的に違う。テキストの中に自然言語のタグを入れることで、「ここは興奮した口調で」「ここはゆっくり丁寧に」「ここはひそひそ声で」という指示が通る。映画の監督が俳優に演技指導するイメージ、と言えば伝わりやすいかもしれない。
Artificial Analysis TTSリーダーボードでEloスコア1,211を記録しており、高品質な音声生成と低コストのバランスで「most attractive quadrant(最も魅力的な象限)」に位置づけられている。
モデルIDとアクセス方法
Gemini APIでのモデルIDは gemini-3.1-flash-tts-preview。開発者向けにはGemini APIとGoogle AI Studio、企業向けにはVertex AI、Google WorkspaceユーザーはGoogle Vidsを通じて利用できる。
注意点として、このモデルはテキストのみを入力として受け取り、音声ファイルのみを出力する。テキストと画像を同時に処理したいといったマルチモーダル用途には向かない。
音声タグ(Audio Tags)の仕組みと使い方
Gemini 3.1 Flash TTSの最大の目玉が「音声タグ」だ。これだけで他のTTSと差別化できる機能といっても過言じゃない。
タグの基本的な書き方
仕組みは単純で、テキストの中に [ ] で囲んだコマンドを入れるだけだ。
[excited] 今日のプレゼン、絶対成功させましょう! [pause] [serious] ただし、リスクも理解しておく必要があります。 [slow] 特に、コスト面については慎重に検討してください。
200種類以上の音声タグがあり、感情・ペース・アクセントスタイルまで対応している。タグは英語で書く必要があるが、読み上げるテキスト本文は日本語でもOKだ。
よく使いそうなタグをまとめておく:
| カテゴリ | タグ例 | 効果 |
|---|---|---|
| 感情 | [excited] [serious] [sad] [cheerful] |
声のトーンが感情に合わせて変わる |
| 声量 | [whispers] [shouting] |
小声、大声 |
| ペース | [slow] [fast] [pause] |
速度調整、間 |
| スタイル | [informative] [storytelling] |
ニュースキャスター風、語り口調 |
タグを連続して配置するとエラーになるため、必ずテキストや句読点で区切る必要がある。慣れれば自然にできるが、最初は少し意識しておきたいポイントだ。
シーン描写でキャラクターを固定する
音声タグだけでなく、「このキャラクターはこういう人物で、こういう環境にいる」という背景情報を与えることもできる。
Google AI Studioには「Scene direction(シーン描写)」という設定があり、環境や人物設定を与えることで、複数のリクエストにまたがってもキャラクターが一貫した声で話し続けるようになる。設定をGemini APIのコードとしてエクスポートする機能もあり、別プロジェクトでも同じ声を再現できる。
ナレーターキャラクターを一度作り込んだら、そのまま横展開できる——これは実務でかなり便利だと思う。
スペック一覧——70言語、30種類のボイス、マルチスピーカー
対応言語とボイスの豊富さ
Gemini 3.1 Flash TTSは70以上の言語に対応し、30種類のボイスオプションを備えている。日本語の精度については前世代の2.5 Flashから大きく改善されており、特に敬語・丁寧語の発音と間の取り方が自然になったという報告がある。
英語ではアメリカ南部アクセント、ロンドンのブリクストン訛り、RP(容認発音)など、地域別の細かいアクセント指定まで対応している。多言語ビジネスや海外向けコンテンツ制作には特に刺さる機能だ。
マルチスピーカー(複数話者)対話
1回のAPIリクエストで、複数の話者が会話するコンテンツを生成できる。
prompt = """ Speaker 1: こちらの新機能についてご説明します。 Speaker 2: どんな点が改善されたんですか? Speaker 1: [enthusiastic] 処理速度が3倍になりました! Speaker 2: [surprised] それは、すごいですね。 """
従来のTTSパイプラインでは話者ごとに別々のAPIコールが必要で、つなぎ目のぎこちなさが問題だった。Gemini 3.1 Flash TTSはマルチスピーカーをネイティブサポートしているため、会話の流れが自然になる。
競合サービスとの比較——ElevenLabs・OpenAI・Amazon Pollyと何が違うか
TTS市場には有力なサービスがいくつかある。正直に比較してみよう。
| サービス | 品質 | 価格(1Mキャラクター) | 主な強み | 弱み |
|---|---|---|---|---|
| Gemini 3.1 Flash TTS | ★★★★★ (ELO 1211) | 公式未発表(Google Cloud価格体系) | 音声タグ、70言語、マルチスピーカー | プレビュー段階 |
| ElevenLabs | ★★★★★ (ELO 1位) | $120〜$180/1M文字 | ボイスクローニング、4000種超の声 | コストが高い、チーム利用は高額 |
| OpenAI TTS | ★★★★ | $15〜$30/1M文字 | OpenAIエコシステムとの統合が容易 | 感情制御が弱い、ボイス種類が少ない |
| Amazon Polly | ★★★ | $0.004〜$0.024/1K文字 | AWSとの統合、低コスト | 表現力が乏しい |
| Google Cloud TTS(旧来) | ★★★ | $0.004〜$0.030/1K文字 | 無料枠が充実 | 感情制御なし |
Artificial Analysis TTSリーダーボードでは、ElevenLabsが1位でGemini 3.1 Flash TTSが2位。OpenAIやAmazon Pollyはそれより下に位置している。
コスト観点では、OpenAI TTSが1Mキャラクターあたり$15〜$30、ElevenLabsが$180程度と差が大きい。Gemini 3.1 Flash TTSはGemini 2.5時代の価格帯(1Kキャラクターあたり約$0.04)と近い水準とみられるが、現時点でVertex AIの正式料金表は確認中なので、実際に使う前にGoogle Cloud Consoleで確認してほしい。
ElevenLabsとの差で正直に言うと、ボイスクローニング(自分の声を学習させてAIに再現させる機能)では現時点でElevenLabsの方が優れている。Gemini 3.1 Flash TTSはそこには対応していない。クローニングが必須の用途なら、今はまだElevenLabsを選ぶ理由がある。
ユースケース——エンジニアとビジネスパーソン別に考える
エンジニアが使えるシーン
① 音声インターフェースのプロトタイプ開発
カスタマーサポートの音声案内、社内の音声ボットなどを作るとき、これまでは音声の質感を調整するたびに録音し直す必要があった。音声タグがあれば、コードを変えるだけで「重要事項の読み上げはゆっくり丁寧に、キャンペーン案内は明るく元気に」という切り替えが即座にできる。
import google.generativeai as genai prompt = """ [serious] 本日はお電話いただきありがとうございます。 [slow] 担当者につなぐまで、少々お待ちください。 [positive] ただいまつながります! """ response = genai.GenerativeModel("gemini-3.1-flash-tts-preview").generate_content( prompt, generation_config={"response_modalities": ["AUDIO"]} )
② 多言語ドキュメント・e-Learningの音声化
長尺のオーディオブックやローカライズされたe-Learningモジュール、製品チュートリアルや複数の音声インタラクションが必要なマーケティング動画などに適している。70言語対応なので、日本語・英語・中国語の3か国語版を一つのパイプラインで処理できる。
③ テスト用音声データの量産
音声認識モデルのテストデータを用意するとき、様々な感情・話速・アクセントのパターンを大量生成するのに使える。手動録音と比べてコストと時間を大幅に削減できる。
ビジネスパーソンが使えるシーン
① 社内研修・eラーニングのナレーション制作
外部のナレーターに依頼せず、テキスト原稿からそのままナレーション音声を生成できる。修正が入っても、テキストを直すだけで即座に再生成できる。制作コストと納期の両方で優位性がある。
② プレゼン資料の音声解説
Google Vidsと連携することで、Google Workspaceユーザーは追加設定なしに使える。スライドに音声解説をつける作業が、テキスト入力だけで完結する。
③ 製品デモ・チュートリアル動画のナレーション
動画のナレーションを内製化できる。特に、製品アップデートのたびにナレーション部分だけ差し替えるといった運用が楽になる。
SynthID透かしと安全性——生成AIオーディオの信頼性をどう担保するか
音声AIが進化するほど、「これはAIが生成したのか、それとも本物の人間の声なのか」という問題が深刻になる。フェイクニュースや詐欺音声への悪用リスクは現実のものだ。
Gemini 3.1 Flash TTSで生成されたすべての音声には、電子透かし技術「SynthID」が適用される。人間の耳には聞こえない透かしを音声データに直接埋め込むことで、AI生成コンテンツであることを確実に検出し、誤情報の拡散を防ぐ仕組みだ。
SynthIDの透かしは音質を劣化させず、圧縮や形式変換をしても消えにくい設計になっている。ただし、完璧な検出手段とは言い切れないのが現状で、研究者たちによる継続的な評価が続いている。「透かしがあるから絶対安全」とは思わず、音声コンテンツの利用シーンに応じた判断が必要だ。
注意点とデメリット——使う前に把握しておくべきこと
正直なところ、いくつか気になる点もある。
現時点でプレビュー段階
2026年4月15日時点でパブリックプレビューとして提供されており、本番環境への適用前には安定性や料金体系を確認してほしい。プレビュー版はAPIの仕様変更や機能追加が頻繁に起きやすい。
ボイスクローニング非対応
自分の声や特定人物の声を学習させて再現する機能は、現時点で提供されていない。ElevenLabsやMistral AIの「Voxtral TTS」など、クローニング特化のサービスとはそこで差がある。
音声タグは英語のみ
音声タグ自体は英語で入力する必要があり、日本語タグは認識されない場合がある。本文を日本語で書いても動くが、タグ設計は英語で考える必要がある。
リアルタイム会話への適性は限定的
このTTSモデルはテキストを音声に変換するバッチ処理向けで、双方向のリアルタイム会話には向かない。リアルタイム音声対話なら、Live APIを使う Gemini 3.1 Flash Live が別途提供されている。
Google AI Studioで今すぐ試す手順
難しい準備は不要だ。Googleアカウントがあれば、無料枠で今日から試せる。
- Google AI Studio にアクセス
- 左メニューから「Speech」または音声生成のPlaygroundを選択
- モデルとして
gemini-3.1-flash-tts-previewを選択 - テキスト入力欄に、音声タグ付きのテキストを入力
- 再生ボタンで確認
Gemini APIを使ったコード実装の場合、公式ドキュメントにPython・JavaScriptのサンプルコードが掲載されている。Cursorや VS Codeから直接試してみると、30分あれば最初のプロトタイプが動く。
まとめ——TTS市場の重心が動いた
個人的な感想を言えば、Gemini 3.1 Flash TTSは「TTSというカテゴリを再定義した」と感じている。
これまでのTTSは「どれだけ人間に近い声を出せるか」の競争だった。Gemini 3.1 Flash TTSが持ち込んだのは「どれだけ意図通りの演技を引き出せるか」という次元の話だ。
EloスコアでElevenLabsには及ばないものの、コスト対品質の比率とGoogleエコシステムとの親和性を考えると、多くのビジネスシーンで十分以上に使える。特に、日本語コンテンツを量産したい企業や、Google Workspaceを軸に業務を回している組織には刺さる選択肢だと思う。
まずはGoogle AI Studioで10分、触ってみてほしい。「思っていたより使える」と感じるはずだ。