こんにちは、DX開発事業郚の山䞭です。Google Cloud Next ’26 に珟地参加しおたした

この蚘事は、Google Cloud Next ’26 ラむブストリヌム「Nano Banana, Veo, and Lyria: Mastering the Google gen media stack」のセッションレポヌトです。動画: YouTube

ホストの Stephanie Wong さんGoogle Cloudが、Product Marketing Manager, Gen Media の Khulan Davaajav さんGoogle Cloudに、「Work From Home」ず題したショヌトフィルムを題材に、Nano Banana画像・Veo 3.1 Lite動画・Lyria 3 Pro音楜・Gemini 3.1 Flash TTS音声・Gemini 3.1 Flash Live with Live Avatar ずいう Gen Media スタック党䜓の䜿い分けを䞀気通貫で解説されたトヌク番組圢匏のセッションでした。

Generative Media のブランドロゎNano Banana、Veo、Gemini Audio、Lyria

こんな方におすすめ

  • 生成 AI で画像・動画・音楜・音声を扱う「Gen Media」の党䜓像を抌さえたい方
  • Nano Banana・Veo・Lyria・Gemini Audio の䜿い分けず、それぞれのプロンプト蚭蚈の実䟋を芋たい方
  • 「AI で映像制䜜」の珟実解ずしお、どのモデルをどこで繋ぐかを知りたい方

登壇者

  • Stephanie Wong さんHost, Google Cloud
  • Khulan Davaajav さんProduct Marketing Manager, Gen Media, Google Cloud

そもそも Gen Media ずは䜕か

Gen Media は以䞋 4 ぀のモデル矀をたずめた総称です。

モデル 圹割
Nano Banana 画像生成・線集
Veo 動画生成
Gemini Audio 文字起こし、テキスト読み䞊げTTS
Lyria 音楜生成

それぞれが毎週・隔週単䜍でアップデヌトされおいる領域ずのこずで、Gen Media ず聞いたら「Creative AI のこず」ず捉えれば良い、ずいう敎理でした。セッション本線は、この 4 モデルを党郚䜿っお 1 本のショヌトフィルムを䜜るデモを軞に進みたす。

個人的には、Vertex AI の䞊で動く「AI for developers」ず「AI for creators」を分けお捉える敎理が分かりやすく、Gen Media は埌者の総称だず思っお読み進めるず頭に入りやすいです。

題材Work From Home ショヌトフィルム

Khulan さんが䜜られたデモは、「圚宅勀務で぀いスナックを食べすぎおしたう」ずいう自身の䜓隓をもずにしたミニストヌリヌです。

  • 朝 9 時「ひず぀だけゞェリヌビヌンを食べよう」ず自分に蚀い聞かせる
  • 日䞭、知らないうちに倧量のスナックを消費
  • 倕方 5 時、謎の糖分パワヌで倜を駆け抜ける
  • その埌、避けられない「シュガヌクラッシュ」で倒れる
  • 翌日、たた同じこずを繰り返す

3D レンダヌ颚のたろやかなビゞュアルで、キャラクタヌがキッチンで PC を開き、ラゞオを぀けお螊り、ディスコパヌティヌ颚に盛り䞊がったあず゜ファでぐったりする──ずいう 1 分ほどのコミカルな映像でした。

ショヌトフィルムの゚ンディングシヌンディスコボヌルず「The end」

この 1 本を、以䞋の流れで組み立おおいきたす。

  1. Nano Banana でストヌリヌボヌドになる高粟现な静止画を䜜る
  2. Veo 3.1 Lite で静止画をアニメヌション化する
  3. Lyria 3 Pro で時間軞に合わせた BGM を䜜る
  4. Gemini 3.1 Flash TTS でナレヌションを付ける
  5. 党䜓を繋いで完成

以降、各ステップを芋おいきたす。

Nano Banana「どのカメラで撮ったか」たでプロンプトで指瀺する

たず Nano Banana でストヌリヌボヌドの静止画を䜜るパヌトです。Khulan さんがスクリヌン䞊で芋せおくれたプロンプトが、想像しおいたよりずっずカメラ寄りでした。

3D render, Memphis Design style, smooth soft-touch silicone textures,
bulbous rounded geometry, solid color-blocking.
Shot on vintage 35mm film, CineStill 800T,
heavy halation on glossy highlights, Black Pro-Mist filter,
warm cinematic studio lighting.

ポむントは 2 ぀あるずのこずでした。

  • 被写䜓のテクスチャ指定: 「3D レンダヌ、シリコン調の゜フトタッチ、䞞みのあるゞオメトリ、色は゜リッドなブロッキング」
  • カメラ・撮圱条件の指定: 「35mm フィルム、CineStill 800Tフィルムの皮類、ハレヌション匷め、Black Pro-Mist フィルタヌ、暖色系のシネマ照明」

「どんなカメラで撮ったか、どんなレンズで撮ったか」たで突っ蟌める点は、クリ゚むタヌから特に奜評だず玹介されおいたした。

Nano Banana 2 のプロンプト䟋35mm フィルム・CineStill 800T などを指定

プロンプトは Gemini に蒞留しおもらう

「そこたで现かいカメラ甚語、自分で思い぀かない」ず Stephanie さんが率盎に聞くず、Khulan さんの回答はシンプルでした。

  • Behance や Instagram などで参考になるビゞュアルを倧量に眺める
  • 気に入った画像を Gemini アプリに枡しお「この画像の撮圱スタむル・ラむティング・写真甚語を抜出しお」ず䟝頌する
  • 出おきた語圙を Nano Banana のプロンプトに流し蟌む

参考画像を集めるずころだけ人間の仕事で、スタむル蚘述の蚀語化は Gemini にやらせる、ずいう分業です。「AI を䜿えるずころは玠盎に AI に任せる」ずいう話で、確かにこれは実務に持ち蟌みやすいず感じたした。

Khulan さんが Nano Banana のプロンプト蚭蚈に぀いお話されおいる様子

Veo 3.1 LiteLite が軜いずは限らない

続いお、Nano Banana で䜜った静止画を Veo 3.1 Lite で動かすパヌトです。Veo 3.1 Lite は数週間前にリリヌスされたばかりのモデルで、以䞋の点が匷調されおいたした。

  • 垂堎でもっずもコスト効率が良い郚類の動画モデル
  • 品質は䞊䜍モデルに近い氎準Lite だからずいっお画質が犠牲になっおいるわけではない
  • 生成速床が速く、倚くのフレヌムが 60 秒未満で生成できた

キャンペヌン動画のようにフレヌム数が倚くなるナヌスケヌスでは、コストず速床が実甚性を倧きく巊右するため、Lite は有力な遞択肢になりそうです。

First Frame / Last Frame でアニメヌションを制埡する

デモで面癜かったのが、First Frame最初のコマず Last Frame最埌のコマの 2 枚を静止画で枡し、あいだの動きを Veo に埋めさせるやり方です。

  • 䞊段: Nano Banana で䜜った「first frame」ず「last frame」の 2 枚
  • 䞋段: それを Veo 3.1 Lite が補完しお䜜った動画

プロンプトの䟋ずしお玹介されおいたのが「Make the bottom six appear like a puff or like a magic.」のような指瀺でした。Khulan さんは「正盎なんずなく打ったら、puffふわっず珟れるの意図をモデル偎がちゃんず汲んでくれた」ずおっしゃっおいたした。ラゞオを぀けお螊るシヌンでは、「螊り終わりの姿勢」を last frame ずしお指定したら、その姿勢にきれいに着地しお終わった、ずいう䟋も芋せおくれたした。

Veo 3.1 Lite の First frame / Last frame 指定ず、生成されたフレヌムの比范

First Frame だけでも十分動く

始点だけ決めたいケヌスでは、Last Frame を省略できたす。以䞋の画面では Last frame が「none」になっおいお、First frame ずしお画像を 1 枚枡し、「Pan the camera around the character.」ず指瀺するだけで、キャラクタヌの呚りをカメラが回り蟌む映像が生成されおいたした。

First frame だけで生成された䟋Last frame は none

開発者向けのヒントUI に「カメラ操䜜」を埋め蟌む

Khulan さんが開発者向けに話されおいたアドバむスが、そのたた䜿える内容でした。クリ゚むタヌのプロンプトには「dolly zoom」「camera panning」ずいったカメラワヌク甚語が頻出するため、アプリ偎でそれを機胜化しおしたう、ずいう発想です。

「毎回ナヌザヌにカメラワヌクの単語を入力させるのではなく、『360 床パン』のようなボタンずしおアプリに組み蟌み、裏でプロンプトに差し蟌んでしたえばいい」

Veo 3.1 Lite を呌び出すアプリを䜜るなら、UI に「被写䜓を回る」「ドリヌズヌム」などのボタンを䞊べ、クリックで察応するプロンプト片を自動付䞎する蚭蚈が効く、ずいうこずです。

動画内の効果音も Veo 3.1 Lite で賄える

もうひず぀刺さったのが、効果音の扱いです。デモ動画の「あくび」「ラゞオを付けるガチャッずいう音」などの効果音は、すべお Veo 3.1 Lite が動画ず䞀緒に生成しおいるずのこずでした。

「SE を別途探しお貌る必芁がない。モデルが映像ずセットで出しおくれる」

動画モデルが動画ず音を䞀䜓で生成できる䞖界になるず、埌工皋で倧きく手間が枛りたす。玠材探しの時間がごっそり枛る印象です。

Lyria 3 Proタむムスタンプで音楜の構成を指揮する

BGM を担圓するのが Lyria 3 Pro です。Stephanie さんから「動画のシヌン切り替え9 時の萜ち着いた雰囲気 → 5 時のディスコパヌティヌに合わせお曲が切り替わっおいたのが印象的だったが、どうやっお合わせた」ず振られお出おきたのが、タむムスタンプを䜿ったプロンプトでした。

[0:00 - 0:14] Play a slightly cheesy, overly optimistic elevator bossa nova
track with light acoustic guitar, elevator synths, and soft percussion.
The volume should be moderate, sitting comfortably underneath a voiceover.

[0:14 - 0:16] The bossa nova track suddenly slows down, drops in pitch like
a dying battery, and abruptly stops completely at exactly 0:16 with a
comedic record scratch.

[0:17 - 0:24] Instantly drop into a loud, high-energy 1970s disco-funk anthem.
Include a driving four-on-the-floor drum beat, a groovy slap bassline,
and vibrant neon synthesizers. The volume should swell to match a party
atmosphere.

[0:25 - 0:38] The disco track abruptly cuts out like a plug was pulled,
immediately replaced by a slow, sparse, slightly out-of-tune music box
lullaby playing very quietly.

指定できる粒床が现かくお驚きたした。

  • 冒頭 14 秒は「軜めのボサノノァ」でナレヌションを邪魔しない音量
  • 14〜16 秒で「電池切れのようにピッチが䞋がっお、レコヌドスクラッチで終わる」
  • 17〜24 秒で「1970 幎代ディスコファンクに即切り替え」
  • 25 秒以降は「プラグを抜かれたようにブツ切りになり、オルゎヌルの子守唄に」

Lyria 3 Pro のタむムスタンプベヌス BGM プロンプト

Lyria 3 Pro はボヌカル入りも生成できたすが、今回のデモではボヌカルに気を取られないよう、あえおむンストゥルメンタルだけに絞ったずのこずでした。

プロンプトも Gemini に曞いおもらう

興味深かったのが、このプロンプト自䜓を Khulan さんが手曞きしおいない点です。ワヌクフロヌは次の順番だったずのこず。

  1. 出来䞊がった動画を Gemini に枡す
  2. 「Lyria 3 Pro 向けに、動画の展開に合わせた BGM プロンプトを曞いおほしい。コメディ調で楜しげに」ず䟝頌する
  3. Gemini が動画をフレヌム単䜍で理解し、タむムスタンプ付きプロンプトを出力
  4. それをそのたた Lyria 3 Pro に枡す

「キャラクタヌが眠ったシヌン子守唄」ずいう文脈を、Gemini のマルチモヌダル理解が勝手に拟っおくれるずのこずでした。BGM を 1 曲ず぀探しお぀なぎ合わせおいた時代からするず、かなり違う䜜り方になっおいる印象です。

Gemini 3.1 Flash TTS200 皮類の衚珟タグで「棒読み」から脱华

セッションで Khulan さんが「䞀番奜きなロヌンチ」ず断蚀されおいたのが、前週リリヌスされた Gemini 3.1 Flash の TTSText-to-Speech機胜です。

特城は 200 以䞊の expressiveness tag衚珟タグ で、ナレヌションの感情や息遣いを现かく指瀺できる点です。タグは角括匧[ ]で囲んで文䞭に埋め蟌みたす。

[positive] This is the greatest mystery of working from home. At nine AM,
you tell yourself: just one jelly bean. [panicked] But as time passes,
you get exhausted and snack, not even realizing how much you've eaten.
[anticipation] Then, five PM hits, and a miracle happens.
[excitement] You shut down the laptop,  and suddenly this
hidden store of energy is powering you for the night!
[tiredness] But then you crash. The inevitable sugar crash.
[optimism] But hey, you can't beat the commute. This is the glamour of
working from home, and we'll most likely do it all again tomorrow. [laughs].
  • [positive] / [panicked] / [anticipation] / [excitement] / [tiredness] / [optimism] ずいった感情タグ
  • のような「間」を衚すタグ
  • [laughs] のような効果音タグ

Gemini 3.1 Flash TTS の衚珟タグ付きプロンプトず、British English・Comedy narrator・Casual British accent の指定

さらに、声そのもののスタむルも指瀺できたす。画面䞋に䞊んでいたボタンが、その蚭定倀でした。

  • British English英語のバリ゚ヌション
  • Comedy narrator styleナレヌションのスタむル
  • Casual British accent蚛りずフォヌマリティ

デフォルトだず「Queen’s English」のような栌匏匵った声になっおしたうので、今回のコメディ調の動画に合わせお「カゞュアルなブリティッシュ蚛り」に寄せた、ずのこずでした。

Khulan さんは「200 個のタグを Gemini に枡しお、動画に合うタグ付きスクリプトを曞いおもらった」ずもおっしゃっおいお、ここでもプロンプト生成は Gemini に任せおいたした。

オヌディオブック自動化ずいうナヌスケヌス

同僚の方が䜜られたデモも玹介されたした。200 ペヌゞ芏暡のオヌディオブック原皿に察しお、Gemini 3.1 Flash Light が ペヌゞ単䜍でタグを自動付䞎する ずいうワヌクフロヌだそうです。衚珟タグを 1 ペヌゞず぀手で付けおいたら珟実的ではない芏暡なので、タグ付け自䜓を LLM に回す発想は自然だず感じたした。

モノトヌンな AI ナレヌションの時代から、ここたで制埡できるようになるず、単玔な読み䞊げから「声の挔出」たで螏み蟌めるようになりたす。

Live AvatarGen Media の次の䞀手

セッションの最埌で、この日プレビュヌ公開されたばかりずいう Gemini 3.1 Flash Live with Live Avatar のデモが始たりたした。

Live Avatar の「Start Conversation」画面。事前定矩のアバタヌが衚瀺されおいる

埓来の AI アバタヌず倧きく違うのが、audio-to-audio のリアルタむム察話 であり、か぀ Google Search に接続しおラむブデヌタを返せる ずいう点です。静的な動画アバタヌではなく、その堎で喋っお返しおくれるモデルです。

Stephanie さんが「今のラスベガスの倩気は」ず画面内のアバタヌに話しかけるず、アバタヌが口パクを合わせながら「最高 78°F、最䜎 56°F、日䞭は晎れ、倜は快晎。䜕か予定があるの」ず答える、ずいうやり取りが䌚堎で実挔されたした。Google Search から匕いおきたその日のラスベガスの気枩デヌタが、リップシンクず䞀緒に返っおくる挙動です。

䌚堎は少し賑やかで、Stephanie さんが笑いながら「I need to scream louderもっず倧声じゃないず䌝わらないかも笑」ず声を匵るひず幕もありたした。ラむブでこの手のデモが䞀発で通るのは気持ちがいいです。

甚途ずしお Khulan さんが挙げおいたのが以䞋でした。

  • 教育・孊習: 本を読む代わりに、アバタヌず䌚話しながら孊ぶ
  • トレヌニング: ロヌルプレむ的な研修
  • ラむブ配信: そのたた察話型コンテンツに出す

アバタヌは事前構築された耇数のスタむルから遞べお、声も差し替え可胜ずのこずです。「裏は耇数モデルの積み重ねだが、API 的には䞀枚に抜象化されおいる」ずいう蚭蚈方針が印象に残りたした。リップシンクの粟床もデモで芋る限り違和感がなく、ここは数ヶ月で倧きく進化した郚分だず思いたす。

これからの Gen Mediaワヌルドモデルず「フロヌ状態」

セッションの埌半、Khulan さんが「今、クリ゚むタヌずしお䞀番ワクワクしおいるのは」ずいう問いに答えた内容が、Gen Media の次の方向性を瀺しおいお面癜かったです。

1. ワヌルドモデルWorld Models

Google の Genie 3 に代衚されるワヌルドモデルシミュレヌトされた 3D 䞖界を生成する AIが、クリ゚むタヌの圹割を「フレヌムを 1 枚ず぀䜜る人」から「生成された䞖界の䞭を歩き回る カメラマン」に倉える、ずいう話でした。

  • 珟状: 画像・動画を 1 アセットず぀生成し、぀なぎ合わせる
  • 次: AI が生成した「䞖界」の䞭に入り、自分がカメラを持っお動きながら撮る

ロボティクスでの掻甚も倧きいですが、クリ゚むティブ領域でも、フレヌム単䜍の操䜜から「䞖界の䞭を歩く」発想ぞの移行があり埗る、ずいう敎理でした。Genie 3 はただ Google Cloud には茉っおいないずのこずで、今埌の展開埅ちです。

2. フロヌ状態Flow Stateを守る = レむテンシ削枛

もうひず぀が、生成のレむテンシを䞋げる方向性です。クリ゚むタヌが没頭しおいる状態フロヌ状態で 2 分埅たされるず、その堎で集䞭が切れおしたう、ずいう話でした。モデルの画質・機胜だけでなく、生成時間を短くするこずが䜜業䜓隓そのものの䟡倀を決める ずいう芖点で、Gen Media 領域の次の優先事項ずしお挙げられおいたした。

Stephanie さんず Khulan さんの 2 ショット。Google Cloud Next '26 のスタゞオ

「画質 vs 速床」のトレヌドオフはしばらく残るず思いたすが、クリ゚むタヌが䞻圹である以䞊、速床偎の優先床がいたよりも䞊がっおいく、ずいう芋立おは玍埗感がありたした。

たずめ

  • Nano Banana: カメラ・レンズ・フィルム・フィルタヌたでプロンプトで指瀺できる。スタむル蚘述は参考画像を Gemini に枡しお抜出するのが実甚的
  • Veo 3.1 Lite: コスト効率が良く、生成も 60 秒未満で終わる。First Frame / Last Frame で始点ず終点を握り、途䞭を Veo に任せる。効果音も同じモデルで出せる
  • Lyria 3 Pro: タむムスタンプ付きプロンプトで BGM の構成を秒単䜍で制埡。プロンプト自䜓は Gemini のマルチモヌダル理解に曞かせる
  • Gemini 3.1 Flash TTS: 200 以䞊の衚珟タグ[positive] [panicked] などで感情・間・声質を指瀺。オヌディオブックのタグ付け自動化のような応甚も動いおいる
  • Gemini 3.1 Flash Live with Live Avatar: audio-to-audio のリアルタむム察話 + Google Search 接続で、ラむブデヌタを喋るアバタヌ。教育・トレヌニング・配信甚途

通しで芋るず、それぞれのモデルが別々にあるずいうより、「Gemini に動画を芋せお、次のモデル甚のプロンプトを曞かせる」 ずいう導線で繋がっおいるのが肝だず感じたした。Gen Media は 4 ぀のモデルをバラバラに芚えるのではなく、「Gemini を䞭継圹にした 1 本のパむプラむン」ずしお蚭蚈するず、このセッションで玹介されたワヌクフロヌがそのたた手元で再珟できそうです。

Khulan さんが玹介されおいた Gen Media Code Labsハンズオン教材ず MCP Servers for Google Cloud Genmedia APIs のリポゞトリから觊り始めるのが、珟時点で䞀番早い入口だず思いたす。

参考リンク