【Google Cloud Next ’26】Nano Banana・Veo 3.1 Lite・Lyria 3 Pro・Gemini 3.1 Flash TTS を連携させて 1 本のショートフィルムを作る

こんにちは、DX開発事業部の山中です。Google Cloud Next ’26 に現地参加してました！

この記事は、Google Cloud Next ’26 ライブストリーム「Nano Banana, Veo, and Lyria: Mastering the Google gen media stack」のセッションレポートです。動画: YouTube

ホストの Stephanie Wong さん（Google Cloud）が、Product Marketing Manager, Gen Media の Khulan Davaajav さん（Google Cloud）に、「Work From Home」と題したショートフィルムを題材に、Nano Banana（画像）・Veo 3.1 Lite（動画）・Lyria 3 Pro（音楽）・Gemini 3.1 Flash TTS（音声）・Gemini 3.1 Flash Live with Live Avatar という Gen Media スタック全体の使い分けを一気通貫で解説されたトーク番組形式のセッションでした。

Generative Media のブランドロゴ（Nano Banana、Veo、Gemini Audio、Lyria）

こんな方におすすめ

生成 AI で画像・動画・音楽・音声を扱う「Gen Media」の全体像を押さえたい方
Nano Banana・Veo・Lyria・Gemini Audio の使い分けと、それぞれのプロンプト設計の実例を見たい方
「AI で映像制作」の現実解として、どのモデルをどこで繋ぐかを知りたい方

登壇者

Stephanie Wong さん（Host, Google Cloud）
Khulan Davaajav さん（Product Marketing Manager, Gen Media, Google Cloud）

そもそも Gen Media とは何か

Gen Media は以下 4 つのモデル群をまとめた総称です。

モデル	役割
Nano Banana	画像生成・編集
Veo	動画生成
Gemini Audio	文字起こし、テキスト読み上げ（TTS）
Lyria	音楽生成

それぞれが毎週・隔週単位でアップデートされている領域とのことで、Gen Media と聞いたら「Creative AI のこと」と捉えれば良い、という整理でした。セッション本編は、この 4 モデルを全部使って 1 本のショートフィルムを作るデモを軸に進みます。

個人的には、Vertex AI の上で動く「AI for developers」と「AI for creators」を分けて捉える整理が分かりやすく、Gen Media は後者の総称だと思って読み進めると頭に入りやすいです。

題材：Work From Home ショートフィルム

Khulan さんが作られたデモは、「在宅勤務でついスナックを食べすぎてしまう」という自身の体験をもとにしたミニストーリーです。

朝 9 時「ひとつだけジェリービーンを食べよう」と自分に言い聞かせる
日中、知らないうちに大量のスナックを消費
夕方 5 時、謎の糖分パワーで夜を駆け抜ける
その後、避けられない「シュガークラッシュ」で倒れる
翌日、また同じことを繰り返す

3D レンダー風のまろやかなビジュアルで、キャラクターがキッチンで PC を開き、ラジオをつけて踊り、ディスコパーティー風に盛り上がったあとソファでぐったりする──という 1 分ほどのコミカルな映像でした。

ショートフィルムのエンディングシーン（ディスコボールと「The end」）

この 1 本を、以下の流れで組み立てていきます。

Nano Banana でストーリーボードになる高精細な静止画を作る
Veo 3.1 Lite で静止画をアニメーション化する
Lyria 3 Pro で時間軸に合わせた BGM を作る
Gemini 3.1 Flash TTS でナレーションを付ける
全体を繋いで完成

以降、各ステップを見ていきます。

Nano Banana：「どのカメラで撮ったか」までプロンプトで指示する

まず Nano Banana でストーリーボードの静止画を作るパートです。Khulan さんがスクリーン上で見せてくれたプロンプトが、想像していたよりずっとカメラ寄りでした。

3D render, Memphis Design style, smooth soft-touch silicone textures,
bulbous rounded geometry, solid color-blocking.
Shot on vintage 35mm film, CineStill 800T,
heavy halation on glossy highlights, Black Pro-Mist filter,
warm cinematic studio lighting.

ポイントは 2 つあるとのことでした。

被写体のテクスチャ指定: 「3D レンダー、シリコン調のソフトタッチ、丸みのあるジオメトリ、色はソリッドなブロッキング」
カメラ・撮影条件の指定: 「35mm フィルム、CineStill 800T（フィルムの種類）、ハレーション強め、Black Pro-Mist フィルター、暖色系のシネマ照明」

「どんなカメラで撮ったか、どんなレンズで撮ったか」まで突っ込める点は、クリエイターから特に好評だと紹介されていました。

Nano Banana 2 のプロンプト例（35mm フィルム・CineStill 800T などを指定）

プロンプトは Gemini に蒸留してもらう

「そこまで細かいカメラ用語、自分で思いつかない」と Stephanie さんが率直に聞くと、Khulan さんの回答はシンプルでした。

Behance や Instagram などで参考になるビジュアルを大量に眺める
気に入った画像を Gemini アプリに渡して「この画像の撮影スタイル・ライティング・写真用語を抽出して」と依頼する
出てきた語彙を Nano Banana のプロンプトに流し込む

参考画像を集めるところだけ人間の仕事で、スタイル記述の言語化は Gemini にやらせる、という分業です。「AI を使えるところは素直に AI に任せる」という話で、確かにこれは実務に持ち込みやすいと感じました。

Khulan さんが Nano Banana のプロンプト設計について話されている様子

Veo 3.1 Lite：Lite が軽いとは限らない

続いて、Nano Banana で作った静止画を Veo 3.1 Lite で動かすパートです。Veo 3.1 Lite は数週間前にリリースされたばかりのモデルで、以下の点が強調されていました。

市場でもっともコスト効率が良い部類の動画モデル
品質は上位モデルに近い水準（Lite だからといって画質が犠牲になっているわけではない）
生成速度が速く、多くのフレームが 60 秒未満で生成できた

キャンペーン動画のようにフレーム数が多くなるユースケースでは、コストと速度が実用性を大きく左右するため、Lite は有力な選択肢になりそうです。

First Frame / Last Frame でアニメーションを制御する

デモで面白かったのが、First Frame（最初のコマ）と Last Frame（最後のコマ）の 2 枚を静止画で渡し、あいだの動きを Veo に埋めさせるやり方です。

上段: Nano Banana で作った「first frame」と「last frame」の 2 枚
下段: それを Veo 3.1 Lite が補完して作った動画

プロンプトの例として紹介されていたのが「Make the bottom six appear like a puff or like a magic.」のような指示でした。Khulan さんは「正直なんとなく打ったら、puff（ふわっと現れる）の意図をモデル側がちゃんと汲んでくれた」とおっしゃっていました。ラジオをつけて踊るシーンでは、「踊り終わりの姿勢」を last frame として指定したら、その姿勢にきれいに着地して終わった、という例も見せてくれました。

Veo 3.1 Lite の First frame / Last frame 指定と、生成されたフレームの比較

First Frame だけでも十分動く

始点だけ決めたいケースでは、Last Frame を省略できます。以下の画面では Last frame が「none」になっていて、First frame として画像を 1 枚渡し、「Pan the camera around the character.」と指示するだけで、キャラクターの周りをカメラが回り込む映像が生成されていました。

First frame だけで生成された例（Last frame は none）

開発者向けのヒント：UI に「カメラ操作」を埋め込む

Khulan さんが開発者向けに話されていたアドバイスが、そのまま使える内容でした。クリエイターのプロンプトには「dolly zoom」「camera panning」といったカメラワーク用語が頻出するため、アプリ側でそれを機能化してしまう、という発想です。

「毎回ユーザーにカメラワークの単語を入力させるのではなく、『360 度パン』のようなボタンとしてアプリに組み込み、裏でプロンプトに差し込んでしまえばいい」

Veo 3.1 Lite を呼び出すアプリを作るなら、UI に「被写体を回る」「ドリーズーム」などのボタンを並べ、クリックで対応するプロンプト片を自動付与する設計が効く、ということです。

動画内の効果音も Veo 3.1 Lite で賄える

もうひとつ刺さったのが、効果音の扱いです。デモ動画の「あくび」「ラジオを付けるガチャッという音」などの効果音は、すべて Veo 3.1 Lite が動画と一緒に生成しているとのことでした。

「SE を別途探して貼る必要がない。モデルが映像とセットで出してくれる」

動画モデルが動画と音を一体で生成できる世界になると、後工程で大きく手間が減ります。素材探しの時間がごっそり減る印象です。

Lyria 3 Pro：タイムスタンプで音楽の構成を指揮する

BGM を担当するのが Lyria 3 Pro です。Stephanie さんから「動画のシーン切り替え（9 時の落ち着いた雰囲気 → 5 時のディスコパーティー）に合わせて曲が切り替わっていたのが印象的だったが、どうやって合わせた？」と振られて出てきたのが、タイムスタンプを使ったプロンプトでした。

[0:00 - 0:14] Play a slightly cheesy, overly optimistic elevator bossa nova
track with light acoustic guitar, elevator synths, and soft percussion.
The volume should be moderate, sitting comfortably underneath a voiceover.

[0:14 - 0:16] The bossa nova track suddenly slows down, drops in pitch like
a dying battery, and abruptly stops completely at exactly 0:16 with a
comedic record scratch.

[0:17 - 0:24] Instantly drop into a loud, high-energy 1970s disco-funk anthem.
Include a driving four-on-the-floor drum beat, a groovy slap bassline,
and vibrant neon synthesizers. The volume should swell to match a party
atmosphere.

[0:25 - 0:38] The disco track abruptly cuts out like a plug was pulled,
immediately replaced by a slow, sparse, slightly out-of-tune music box
lullaby playing very quietly.

指定できる粒度が細かくて驚きました。

冒頭 14 秒は「軽めのボサノヴァ」でナレーションを邪魔しない音量
14〜16 秒で「電池切れのようにピッチが下がって、レコードスクラッチで終わる」
17〜24 秒で「1970 年代ディスコファンクに即切り替え」
25 秒以降は「プラグを抜かれたようにブツ切りになり、オルゴールの子守唄に」

Lyria 3 Pro のタイムスタンプベース BGM プロンプト

Lyria 3 Pro はボーカル入りも生成できますが、今回のデモではボーカルに気を取られないよう、あえてインストゥルメンタルだけに絞ったとのことでした。

プロンプトも Gemini に書いてもらう

興味深かったのが、このプロンプト自体を Khulan さんが手書きしていない点です。ワークフローは次の順番だったとのこと。

出来上がった動画を Gemini に渡す
「Lyria 3 Pro 向けに、動画の展開に合わせた BGM プロンプトを書いてほしい。コメディ調で楽しげに」と依頼する
Gemini が動画をフレーム単位で理解し、タイムスタンプ付きプロンプトを出力
それをそのまま Lyria 3 Pro に渡す

「キャラクターが眠ったシーン＝子守唄」という文脈を、Gemini のマルチモーダル理解が勝手に拾ってくれるとのことでした。BGM を 1 曲ずつ探してつなぎ合わせていた時代からすると、かなり違う作り方になっている印象です。

Gemini 3.1 Flash TTS：200 種類の表現タグで「棒読み」から脱却

セッションで Khulan さんが「一番好きなローンチ」と断言されていたのが、前週リリースされた Gemini 3.1 Flash の TTS（Text-to-Speech）機能です。

特徴は 200 以上の expressiveness tag（表現タグ） で、ナレーションの感情や息遣いを細かく指示できる点です。タグは角括弧（[ ]）で囲んで文中に埋め込みます。

[positive] This is the greatest mystery of working from home. At nine AM,
you tell yourself: just one jelly bean. [panicked] But as time passes,
you get exhausted and snack, not even realizing how much you've eaten.
[anticipation] Then, five PM hits, and a miracle happens.
[excitement] You shut down the laptop,  and suddenly this
hidden store of energy is powering you for the night!
[tiredness] But then you crash. The inevitable sugar crash.
[optimism] But hey, you can't beat the commute. This is the glamour of
working from home, and we'll most likely do it all again tomorrow. [laughs].

[positive] / [panicked] / [anticipation] / [excitement] / [tiredness] / [optimism] といった感情タグ
のような「間」を表すタグ
[laughs] のような効果音タグ

Gemini 3.1 Flash TTS の表現タグ付きプロンプトと、British English・Comedy narrator・Casual British accent の指定

さらに、声そのもののスタイルも指示できます。画面下に並んでいたボタンが、その設定値でした。

British English（英語のバリエーション）
Comedy narrator style（ナレーションのスタイル）
Casual British accent（訛りとフォーマリティ）

デフォルトだと「Queen’s English」のような格式張った声になってしまうので、今回のコメディ調の動画に合わせて「カジュアルなブリティッシュ訛り」に寄せた、とのことでした。

Khulan さんは「200 個のタグを Gemini に渡して、動画に合うタグ付きスクリプトを書いてもらった」ともおっしゃっていて、ここでもプロンプト生成は Gemini に任せていました。

オーディオブック自動化というユースケース

同僚の方が作られたデモも紹介されました。200 ページ規模のオーディオブック原稿に対して、Gemini 3.1 Flash Light が ページ単位でタグを自動付与する というワークフローだそうです。表現タグを 1 ページずつ手で付けていたら現実的ではない規模なので、タグ付け自体を LLM に回す発想は自然だと感じました。

モノトーンな AI ナレーションの時代から、ここまで制御できるようになると、単純な読み上げから「声の演出」まで踏み込めるようになります。

Live Avatar：Gen Media の次の一手

セッションの最後で、この日プレビュー公開されたばかりという Gemini 3.1 Flash Live with Live Avatar のデモが始まりました。

Live Avatar の「Start Conversation」画面。事前定義のアバターが表示されている

従来の AI アバターと大きく違うのが、audio-to-audio のリアルタイム対話 であり、かつ Google Search に接続してライブデータを返せる という点です。静的な動画アバターではなく、その場で喋って返してくれるモデルです。

Stephanie さんが「今のラスベガスの天気は？」と画面内のアバターに話しかけると、アバターが口パクを合わせながら「最高 78°F、最低 56°F、日中は晴れ、夜は快晴。何か予定があるの？」と答える、というやり取りが会場で実演されました。Google Search から引いてきたその日のラスベガスの気温データが、リップシンクと一緒に返ってくる挙動です。

会場は少し賑やかで、Stephanie さんが笑いながら「I need to scream louder（もっと大声じゃないと伝わらないかも笑）」と声を張るひと幕もありました。ライブでこの手のデモが一発で通るのは気持ちがいいです。

用途として Khulan さんが挙げていたのが以下でした。

教育・学習: 本を読む代わりに、アバターと会話しながら学ぶ
トレーニング: ロールプレイ的な研修
ライブ配信: そのまま対話型コンテンツに出す

アバターは事前構築された複数のスタイルから選べて、声も差し替え可能とのことです。「裏は複数モデルの積み重ねだが、API 的には一枚に抽象化されている」という設計方針が印象に残りました。リップシンクの精度もデモで見る限り違和感がなく、ここは数ヶ月で大きく進化した部分だと思います。

これからの Gen Media：ワールドモデルと「フロー状態」

セッションの後半、Khulan さんが「今、クリエイターとして一番ワクワクしているのは？」という問いに答えた内容が、Gen Media の次の方向性を示していて面白かったです。

1. ワールドモデル（World Models）

Google の Genie 3 に代表されるワールドモデル（シミュレートされた 3D 世界を生成する AI）が、クリエイターの役割を「フレームを 1 枚ずつ作る人」から「生成された世界の中を歩き回る カメラマン」に変える、という話でした。

現状: 画像・動画を 1 アセットずつ生成し、つなぎ合わせる
次: AI が生成した「世界」の中に入り、自分がカメラを持って動きながら撮る

ロボティクスでの活用も大きいですが、クリエイティブ領域でも、フレーム単位の操作から「世界の中を歩く」発想への移行があり得る、という整理でした。Genie 3 はまだ Google Cloud には載っていないとのことで、今後の展開待ちです。

2. フロー状態（Flow State）を守る = レイテンシ削減

もうひとつが、生成のレイテンシを下げる方向性です。クリエイターが没頭している状態（フロー状態）で 2 分待たされると、その場で集中が切れてしまう、という話でした。モデルの画質・機能だけでなく、生成時間を短くすることが作業体験そのものの価値を決める という視点で、Gen Media 領域の次の優先事項として挙げられていました。

Stephanie さんと Khulan さんの 2 ショット。Google Cloud Next '26 のスタジオ

「画質 vs 速度」のトレードオフはしばらく残ると思いますが、クリエイターが主役である以上、速度側の優先度がいまよりも上がっていく、という見立ては納得感がありました。

まとめ

Nano Banana: カメラ・レンズ・フィルム・フィルターまでプロンプトで指示できる。スタイル記述は参考画像を Gemini に渡して抽出するのが実用的
Veo 3.1 Lite: コスト効率が良く、生成も 60 秒未満で終わる。First Frame / Last Frame で始点と終点を握り、途中を Veo に任せる。効果音も同じモデルで出せる
Lyria 3 Pro: タイムスタンプ付きプロンプトで BGM の構成を秒単位で制御。プロンプト自体は Gemini のマルチモーダル理解に書かせる
Gemini 3.1 Flash TTS: 200 以上の表現タグ（[positive] [panicked] など）で感情・間・声質を指示。オーディオブックのタグ付け自動化のような応用も動いている
Gemini 3.1 Flash Live with Live Avatar: audio-to-audio のリアルタイム対話 + Google Search 接続で、ライブデータを喋るアバター。教育・トレーニング・配信用途

通しで見ると、それぞれのモデルが別々にあるというより、「Gemini に動画を見せて、次のモデル用のプロンプトを書かせる」 という導線で繋がっているのが肝だと感じました。Gen Media は 4 つのモデルをバラバラに覚えるのではなく、「Gemini を中継役にした 1 本のパイプライン」として設計すると、このセッションで紹介されたワークフローがそのまま手元で再現できそうです。

Khulan さんが紹介されていた Gen Media Code Labs（ハンズオン教材）と MCP Servers for Google Cloud Genmedia APIs のリポジトリから触り始めるのが、現時点で一番早い入口だと思います。

【Google Cloud Next ’26】Nano Banana・Veo 3.1 Lite・Lyria 3 Pro・Gemini 3.1 Flash TTS を連携させて 1 本のショートフィルムを作る

こんな方におすすめ

登壇者

そもそも Gen Media とは何か

題材：Work From Home ショートフィルム

Nano Banana：「どのカメラで撮ったか」までプロンプトで指示する

プロンプトは Gemini に蒸留してもらう

Veo 3.1 Lite：Lite が軽いとは限らない

First Frame / Last Frame でアニメーションを制御する

First Frame だけでも十分動く

開発者向けのヒント：UI に「カメラ操作」を埋め込む

動画内の効果音も Veo 3.1 Lite で賄える

Lyria 3 Pro：タイムスタンプで音楽の構成を指揮する

プロンプトも Gemini に書いてもらう

Gemini 3.1 Flash TTS：200 種類の表現タグで「棒読み」から脱却

オーディオブック自動化というユースケース

Live Avatar：Gen Media の次の一手

これからの Gen Media：ワールドモデルと「フロー状態」

1. ワールドモデル（World Models）

2. フロー状態（Flow State）を守る = レイテンシ削減

まとめ

参考リンク

ウワサのClaude Design、使ってみた

CloudFrontの代替ドメイン名

CloudWatch Synthetics CanaryによるURL外形監視

Figma AI ほぼ全機能使ってみた

Gemini CLIを導入することでターミナルにGeminiを住まわせよう

【Google Cloud Next ’26】Nano Banana・Veo 3.1 Lite・Lyria 3 Pro・Gemini 3.1 Flash TTS を連携させて 1 本のショートフィルムを作る

こんな方におすすめ

登壇者

そもそも Gen Media とは何か

題材：Work From Home ショートフィルム

Nano Banana：「どのカメラで撮ったか」までプロンプトで指示する

プロンプトは Gemini に蒸留してもらう

Veo 3.1 Lite：Lite が軽いとは限らない

First Frame / Last Frame でアニメーションを制御する

First Frame だけでも十分動く

開発者向けのヒント：UI に「カメラ操作」を埋め込む

動画内の効果音も Veo 3.1 Lite で賄える

Lyria 3 Pro：タイムスタンプで音楽の構成を指揮する

プロンプトも Gemini に書いてもらう

Gemini 3.1 Flash TTS：200 種類の表現タグで「棒読み」から脱却

オーディオブック自動化というユースケース

Live Avatar：Gen Media の次の一手

これからの Gen Media：ワールドモデルと「フロー状態」

1. ワールドモデル（World Models）

2. フロー状態（Flow State）を守る = レイテンシ削減

まとめ

参考リンク

関連記事Related Articles

【Google Cloud Next ’26】Google WorkspaceとGemini Enterprise速報

【Google Cloud Next ’26】Anthropic 流、マルチエージェントに踏み出す3つの判断基準と5つのコーディネーションパターン

【Google Cloud Next ’26】Cloud Runが大幅進化！注目アップデートを徹底紹介

【Google Cloud Next ’26】「Agentic 時代」への突入 〜次世代AIインフラとプラットフォームの全貌〜

【Google Cloud Next ’26】Dataplex が Knowledge Catalog にリブランド 〜エージェント時代のコンテキスト基盤へ〜

【Google Cloud Next ’26】「Agentic 時代」への突入〜次世代AIインフラとプラットフォームの全貌〜

【Google Cloud Next ’26】Dataplex が Knowledge Catalog にリブランド〜エージェント時代のコンテキスト基盤へ〜