エンジニアの思い立ったが吉日

このブログでは、「あ、これ面白い!」「明日から仕事で使えそう!」と感じたIT関連のニュースやサービスを、難しい言葉を使わずに分かりやすく紹介しています。ITに詳しくない方にも楽しんでもらえるような情報を発信していくので、ぜひ「継続的な情報収集」の場としてご活用ください。

音声AIが「演技指導」できる時代へ——Gemini 3.1 Flash TTSが変える音声コンテンツ制作の常識

「テキスト読み上げAIって、なんか機械っぽいんだよな」

そう感じている人に届けたい。2026年4月15日、Googleが公開した Gemini 3.1 Flash TTS は、従来のTTS(Text-to-Speech、テキスト読み上げ)とはまったく別物だ。

これまでのTTSは「テキストを音声に変換するだけ」のツールだった。声の温度感、間の取り方、感情のニュアンス——そういうものは人間のナレーターに頼るか、何十テイクも録り直すしかなかった。

Gemini 3.1 Flash TTSはそこを変える。テキストの中に [excited][whispers] といった「音声タグ」を埋め込むだけで、感情や声量を細かく制御できる。Googleはこれを「AIへの演技指導」と表現している。

この記事では、Gemini 3.1 Flash TTSの全貌を整理する。どんな機能があって、何ができて、どう使えばいいのか。開発者にもビジネス担当者にも、具体的なイメージをつかんでほしい。

Gemini 3.1 Flash TTSとは何か——従来のTTSと何が違うのか

「声を選ぶ」から「演技を指示する」へ

従来のテキスト読み上げAIは、シンプルだった。声のトーンをあらかじめ選んで、テキストを流し込む。出てくる音声は均一で、感情の起伏がほぼない。

Gemini 3.1 Flash TTSはアプローチが根本的に違う。テキストの中に自然言語のタグを入れることで、「ここは興奮した口調で」「ここはゆっくり丁寧に」「ここはひそひそ声で」という指示が通る。映画の監督が俳優に演技指導するイメージ、と言えば伝わりやすいかもしれない。

Artificial Analysis TTSリーダーボードでEloスコア1,211を記録しており、高品質な音声生成と低コストのバランスで「most attractive quadrant(最も魅力的な象限)」に位置づけられている。

モデルIDとアクセス方法

Gemini APIでのモデルIDは gemini-3.1-flash-tts-preview。開発者向けにはGemini APIとGoogle AI Studio、企業向けにはVertex AI、Google WorkspaceユーザーはGoogle Vidsを通じて利用できる。

注意点として、このモデルはテキストのみを入力として受け取り、音声ファイルのみを出力する。テキストと画像を同時に処理したいといったマルチモーダル用途には向かない。


音声タグ(Audio Tags)の仕組みと使い方

Gemini 3.1 Flash TTSの最大の目玉が「音声タグ」だ。これだけで他のTTSと差別化できる機能といっても過言じゃない。

タグの基本的な書き方

仕組みは単純で、テキストの中に [ ] で囲んだコマンドを入れるだけだ。

[excited] 今日のプレゼン、絶対成功させましょう!
[pause] 
[serious] ただし、リスクも理解しておく必要があります。
[slow] 特に、コスト面については慎重に検討してください。

200種類以上の音声タグがあり、感情・ペース・アクセントスタイルまで対応している。タグは英語で書く必要があるが、読み上げるテキスト本文は日本語でもOKだ。

よく使いそうなタグをまとめておく:

カテゴリ タグ例 効果
感情 [excited] [serious] [sad] [cheerful] 声のトーンが感情に合わせて変わる
声量 [whispers] [shouting] 小声、大声
ペース [slow] [fast] [pause] 速度調整、間
スタイル [informative] [storytelling] ニュースキャスター風、語り口調

タグを連続して配置するとエラーになるため、必ずテキストや句読点で区切る必要がある。慣れれば自然にできるが、最初は少し意識しておきたいポイントだ。

シーン描写でキャラクターを固定する

音声タグだけでなく、「このキャラクターはこういう人物で、こういう環境にいる」という背景情報を与えることもできる。

Google AI Studioには「Scene direction(シーン描写)」という設定があり、環境や人物設定を与えることで、複数のリクエストにまたがってもキャラクターが一貫した声で話し続けるようになる。設定をGemini APIのコードとしてエクスポートする機能もあり、別プロジェクトでも同じ声を再現できる。

ナレーターキャラクターを一度作り込んだら、そのまま横展開できる——これは実務でかなり便利だと思う。


スペック一覧——70言語、30種類のボイス、マルチスピーカー

対応言語とボイスの豊富さ

Gemini 3.1 Flash TTSは70以上の言語に対応し、30種類のボイスオプションを備えている。日本語の精度については前世代の2.5 Flashから大きく改善されており、特に敬語・丁寧語の発音と間の取り方が自然になったという報告がある。

英語ではアメリカ南部アクセント、ロンドンのブリクストン訛り、RP(容認発音)など、地域別の細かいアクセント指定まで対応している。多言語ビジネスや海外向けコンテンツ制作には特に刺さる機能だ。

マルチスピーカー(複数話者)対話

1回のAPIリクエストで、複数の話者が会話するコンテンツを生成できる。

prompt = """
Speaker 1: こちらの新機能についてご説明します。
Speaker 2: どんな点が改善されたんですか?
Speaker 1: [enthusiastic] 処理速度が3倍になりました!
Speaker 2: [surprised] それは、すごいですね。
"""

従来のTTSパイプラインでは話者ごとに別々のAPIコールが必要で、つなぎ目のぎこちなさが問題だった。Gemini 3.1 Flash TTSはマルチスピーカーをネイティブサポートしているため、会話の流れが自然になる。


競合サービスとの比較——ElevenLabs・OpenAI・Amazon Pollyと何が違うか

TTS市場には有力なサービスがいくつかある。正直に比較してみよう。

サービス 品質 価格(1Mキャラクター) 主な強み 弱み
Gemini 3.1 Flash TTS ★★★★★ (ELO 1211) 公式未発表(Google Cloud価格体系) 音声タグ、70言語、マルチスピーカー プレビュー段階
ElevenLabs ★★★★★ (ELO 1位) $120〜$180/1M文字 ボイスクローニング、4000種超の声 コストが高い、チーム利用は高額
OpenAI TTS ★★★★ $15〜$30/1M文字 OpenAIエコシステムとの統合が容易 感情制御が弱い、ボイス種類が少ない
Amazon Polly ★★★ $0.004〜$0.024/1K文字 AWSとの統合、低コスト 表現力が乏しい
Google Cloud TTS(旧来) ★★★ $0.004〜$0.030/1K文字 無料枠が充実 感情制御なし

Artificial Analysis TTSリーダーボードでは、ElevenLabsが1位でGemini 3.1 Flash TTSが2位。OpenAIやAmazon Pollyはそれより下に位置している。

コスト観点では、OpenAI TTSが1Mキャラクターあたり$15〜$30、ElevenLabsが$180程度と差が大きい。Gemini 3.1 Flash TTSはGemini 2.5時代の価格帯(1Kキャラクターあたり約$0.04)と近い水準とみられるが、現時点でVertex AIの正式料金表は確認中なので、実際に使う前にGoogle Cloud Consoleで確認してほしい。

ElevenLabsとの差で正直に言うと、ボイスクローニング(自分の声を学習させてAIに再現させる機能)では現時点でElevenLabsの方が優れている。Gemini 3.1 Flash TTSはそこには対応していない。クローニングが必須の用途なら、今はまだElevenLabsを選ぶ理由がある。


ユースケース——エンジニアとビジネスパーソン別に考える

エンジニアが使えるシーン

① 音声インターフェースのプロトタイプ開発

カスタマーサポートの音声案内、社内の音声ボットなどを作るとき、これまでは音声の質感を調整するたびに録音し直す必要があった。音声タグがあれば、コードを変えるだけで「重要事項の読み上げはゆっくり丁寧に、キャンペーン案内は明るく元気に」という切り替えが即座にできる。

import google.generativeai as genai

prompt = """
[serious] 本日はお電話いただきありがとうございます。
[slow] 担当者につなぐまで、少々お待ちください。
[positive] ただいまつながります!
"""

response = genai.GenerativeModel("gemini-3.1-flash-tts-preview").generate_content(
    prompt,
    generation_config={"response_modalities": ["AUDIO"]}
)

② 多言語ドキュメント・e-Learningの音声化

長尺のオーディオブックやローカライズされたe-Learningモジュール、製品チュートリアルや複数の音声インタラクションが必要なマーケティング動画などに適している。70言語対応なので、日本語・英語・中国語の3か国語版を一つのパイプラインで処理できる。

③ テスト用音声データの量産

音声認識モデルのテストデータを用意するとき、様々な感情・話速・アクセントのパターンを大量生成するのに使える。手動録音と比べてコストと時間を大幅に削減できる。

ビジネスパーソンが使えるシーン

① 社内研修・eラーニングのナレーション制作

外部のナレーターに依頼せず、テキスト原稿からそのままナレーション音声を生成できる。修正が入っても、テキストを直すだけで即座に再生成できる。制作コストと納期の両方で優位性がある。

② プレゼン資料の音声解説

Google Vidsと連携することで、Google Workspaceユーザーは追加設定なしに使える。スライドに音声解説をつける作業が、テキスト入力だけで完結する。

③ 製品デモ・チュートリアル動画のナレーション

動画のナレーションを内製化できる。特に、製品アップデートのたびにナレーション部分だけ差し替えるといった運用が楽になる。


SynthID透かしと安全性——生成AIオーディオの信頼性をどう担保するか

音声AIが進化するほど、「これはAIが生成したのか、それとも本物の人間の声なのか」という問題が深刻になる。フェイクニュースや詐欺音声への悪用リスクは現実のものだ。

Gemini 3.1 Flash TTSで生成されたすべての音声には、電子透かし技術「SynthID」が適用される。人間の耳には聞こえない透かしを音声データに直接埋め込むことで、AI生成コンテンツであることを確実に検出し、誤情報の拡散を防ぐ仕組みだ。

SynthIDの透かしは音質を劣化させず、圧縮や形式変換をしても消えにくい設計になっている。ただし、完璧な検出手段とは言い切れないのが現状で、研究者たちによる継続的な評価が続いている。「透かしがあるから絶対安全」とは思わず、音声コンテンツの利用シーンに応じた判断が必要だ。


注意点とデメリット——使う前に把握しておくべきこと

正直なところ、いくつか気になる点もある。

現時点でプレビュー段階

2026年4月15日時点でパブリックプレビューとして提供されており、本番環境への適用前には安定性や料金体系を確認してほしい。プレビュー版はAPIの仕様変更や機能追加が頻繁に起きやすい。

ボイスクローニング非対応

自分の声や特定人物の声を学習させて再現する機能は、現時点で提供されていない。ElevenLabsやMistral AIの「Voxtral TTS」など、クローニング特化のサービスとはそこで差がある。

音声タグは英語のみ

音声タグ自体は英語で入力する必要があり、日本語タグは認識されない場合がある。本文を日本語で書いても動くが、タグ設計は英語で考える必要がある。

リアルタイム会話への適性は限定的

このTTSモデルはテキストを音声に変換するバッチ処理向けで、双方向のリアルタイム会話には向かない。リアルタイム音声対話なら、Live APIを使う Gemini 3.1 Flash Live が別途提供されている。


Google AI Studioで今すぐ試す手順

難しい準備は不要だ。Googleアカウントがあれば、無料枠で今日から試せる。

  1. Google AI Studio にアクセス
  2. 左メニューから「Speech」または音声生成のPlaygroundを選択
  3. モデルとして gemini-3.1-flash-tts-preview を選択
  4. テキスト入力欄に、音声タグ付きのテキストを入力
  5. 再生ボタンで確認

Gemini APIを使ったコード実装の場合、公式ドキュメントにPython・JavaScriptのサンプルコードが掲載されている。Cursorや VS Codeから直接試してみると、30分あれば最初のプロトタイプが動く。


まとめ——TTS市場の重心が動いた

個人的な感想を言えば、Gemini 3.1 Flash TTSは「TTSというカテゴリを再定義した」と感じている。

これまでのTTSは「どれだけ人間に近い声を出せるか」の競争だった。Gemini 3.1 Flash TTSが持ち込んだのは「どれだけ意図通りの演技を引き出せるか」という次元の話だ。

EloスコアでElevenLabsには及ばないものの、コスト対品質の比率とGoogleエコシステムとの親和性を考えると、多くのビジネスシーンで十分以上に使える。特に、日本語コンテンツを量産したい企業や、Google Workspaceを軸に業務を回している組織には刺さる選択肢だと思う。

まずはGoogle AI Studioで10分、触ってみてほしい。「思っていたより使える」と感じるはずだ。

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

engineer-kichizitsu.net

当サイトは、アフィリエイト広告を使用しています。