話題の「Veo3」を触ってみた
こんにちは
Googleが開発した動画生成AI「Veo3」を触る機会がありましたのでブログにしてみました
「テキストから動画が作れるって聞くけど、実際どのくらいすごいの?」
「使い方は難しいんじゃない?」
なんて思っている方も多いんじゃないでしょうか。
そこで今回は実際にVeo3を使ってみた感想を、使い方を交えながらレビューしていきたいと思います。ぜひ参考にしてみてください。
とりあえず基本の使い方で動画を作ってみた
今回はGeminiからVeo3を使用してみます。
会社が契約済みなのですでにPRO版にアップグレード済みです。(まだの方はこちらから)
さっそく、簡単なプロンプトで動画を作ってみます。
やり方は本当に簡単で、
- 作りたい動画のイメージを文章で入力する
- 動画のサイズ(縦長とか横長とか)を選ぶ
- 「生成」ボタンを押す
これだけです。今回は、お試しの定番(?)でワンちゃんの動画をお願いしてみました。
入力したプロンプト:
ムキムキマッチョな犬
そして、数分後に出てきたのがこの動画です。
普通にクオリティ高いですね
実際にカメラで撮影しているかのようでかなりリアルです、AIがゼロから作ったとは思えないクオリティで、正直ちょっと驚きました。
ただ、マッチョ感がなかったのでさらに攻めたお願いをしてみました
入力したプロンプト:
二足歩行でダンベルを持ち上げているムキムキマッチョな犬
そして、数分後に出てきたのがこの動画です。
これは。。。(笑)
もはや犬ではなく、「たくましい男性の体に、犬の頭をそのまま合成した」映像になっちゃってます。首から下はバキバキに仕上がったボディビルダーなのに、首から上はつぶらな瞳のワンちゃんという不自然な動画が作成されました。
ただ、指示した側もどんな動画になるのか予測がつかない無理なお願いをしたのに一応はプロンプトに沿った動画を生成してくれました。
ここでトラブル発生
次の動画を生成しようとしたところ、画面に通知が表示されました。
動画生成の上限に達しました。8月12日 15:33までお待ちください。
どうやら、利用には制限があるようです。 調べてみたところ、2025年8月現在、GoogleからVeo3の上限に関する明確な公式発表はありませんでした。これは、現在のVeo3がまだテスト段階(ベータ版)にあり、今後仕様が変更される可能性があるためと考えられます。
ちなみに、私はこれまでに3本の動画を生成していました。このことから、短時間での連続生成には何らかの制限があるのかもしれません。
せっかくなのでこの待ち時間を有効に活用することにしました。Veo3でより良い動画を生成するための、プロンプトの記述方法やコツについてGeminiと整理してみます。
動画生成の精度を高めるための、プロンプト記述のコツ
ここでは、意図した通りの動画を生成するために有効と考えられる、プロンプトの記述方法についてGemini先生に聞いてみました。
はじめに:プロンプトは日本語と英語、どちらが良いか
まず基本的な点として、プロンプトに使用する言語についてです。 結論から言うと、現状では英語でプロンプトを記述する方が、より精度の高い結果を期待できます。
その理由は主に2つあります。
- 学習データの量が圧倒的に多い Veo3のような大規模AIモデルは、インターネット上の膨大なテキストと画像の関連性を学習しています。そのデータの大部分は英語であるため、AIは英語の語彙や文脈、ニュアンスを日本語よりも遥かに深く理解しています。
- 専門用語や表現の豊富さ 特に映像表現に関する「カメラワーク」「照明」「画風」といった専門用語や、微妙な雰囲気を伝える形容詞は、英語の方が具体的で豊富な語彙が存在します。これらの単語を直接使えることが、英語プロンプトの大きな利点です。
もちろんVeo3は日本語にも対応していますが、入力された日本語は内部で英語に翻訳されてから処理されている可能性があります。その際、翻訳の過程で細かいニュアンスが失われてしまうことも考えられます。
とはいえ、無理に英語で考える必要はありません。以下のような手順を踏むことをお勧めします。
- まず日本語で、作りたい動画のイメージを具体的に書き出す。
- DeepLやGoogle翻訳といった翻訳ツールを使い、英語に変換する。
- 翻訳された英語をプロンプトとして使用する。
この一手間を加えるだけで、動画のクオリティが大きく向上する可能性があります。
コツ1:具体的・詳細な描写を心がける
AIに対しては、情景が目に浮かぶレベルで具体的な指示を出すことが基本です。「5W1H(いつ、どこで、誰が、何を、なぜ、どのように)」を意識すると、指示が明確になります。
- 推奨されない例:
a cat video (猫の動画)
- 推奨される例:
A fluffy Siamese cat is napping peacefully in a sunbeam by the window on a quiet afternoon. (静かな午後、窓際の太陽の光の中で、ふわふわのシャム猫が気持ちよさそうに昼寝をしている。)
コツ2:映像技術(カメラワーク、照明)を指定する
Veo3は映像の専門用語を高いレベルで理解します。これらをプロンプトに含めることで、映像の品質をコントロールできます。
- カメラワークの用語例:
drone shot
,slow motion
,close-up shot
,wide-angle shot
- 照明(ライティング)の用語例:
cinematic lighting
,golden hour
,neon lights
応用プロンプト例:
Drone shot of a lone hiker standing on a mountain peak at golden hour, cinematic lighting. (ゴールデンアワーの山の頂上に一人で立つ登山者を、ドローンショットで撮影。映画のような照明で。)
コツ3:作風(スタイル)を指定する
動画全体の雰囲気や画風を指定することも有効です。これにより、一貫した世界観を持つ動画を生成しやすくなります。
- スタイルの用語例:
Studio Ghibli style
,Pixar style
,documentary style
,8mm film
,cyberpunk
応用プロンプト例:
A bustling fantasy market in a magical forest, Studio Ghibli style. (魔法の森の中にある、にぎやかなファンタジー世界の市場。スタジオジブリ風で。)
コツ4:音声要素を指定する
Veo3の大きな特徴である音声生成機能も、プロンプトで制御できます。BGM、効果音、セリフなどを具体的に指示しましょう。
応用プロンプト例:
A detective is looking at a clue in a dark room, with the sound of rain outside and suspenseful music. A man says, “I finally found it.” (暗い部屋で刑事が手がかりを見つめている。外は雨の音、サスペンスフルなBGM付きで。男性が「ついに見つけたぞ」と言う。)
だそうです。さすがGemini大先生、頼りになります。
制限が解除されたらこれらのコツを基に再度動画生成を試みたいと思います。
もう少し色々な動画を作って性能をチェック
ではプロンプトの書き方も整理したところで、今度はVeo3がどれだけ色々な要望に応えてくれるのか、いくつか試してみました。
先ほど学んだコツを基に、より具体的で複合的な指示を出していきます。
検証1:映像表現(カメラワーク+照明)
まず、映画のワンシーンのような、雰囲気のある映像が作れるかを試します。「カメラワーク」と「照明」に関する指示を組み合わせました。
使用プロンプト:
Close-up shot of an old man’s face looking out a window on a rainy night, dramatic lighting, slow motion. (雨の夜、窓の外を眺める老人の顔のクローズアップショット。ドラマチックな照明で、スローモーション。)
生成された動画:
結果と考察: これは、かなり精度の高い結果となりました。「クローズアップ」「雨の夜」「ドラマチックな照明」という、指示した3つの要素がすべて正確に映像に反映されています。特に、窓ガラスを流れる雨粒の質感や、顔に当たる光と影のコントラストは非常にリアルです。 プロンプトに映像技法に関する単語を入れる有効性が確認できました。
ただし、同時に指示した「スローモーション」は、あまり反映されませんでした。
これは、プロンプト内の他の静的な要素(クローズアップ、照明など)が優先されたか、あるいは被写体の動きが元々少なすぎたため、効果が見えにくかったのかもしれません。
この結果から、動きに関する指示は、より具体的に記述するのが有効だと考えられます。例えば、
extreme slow motion
のように効果を強調する。A single tear rolls down his cheek in slow motion
(涙が一筋、スローモーションで頬を伝う) のように、どの動きをスローにしたいのかを明確に文章で指定する。
といった工夫で、AIも指示を解釈しやすくなるでしょう。 やはり、一度で完璧な結果を求めるのではなく、結果を見ながら指示を微調整していくことが重要ですね。
検証2:特定の画風(スタイル)の再現性
次に、写実的な映像ではなく、特定の「スタイル」を再現できるかを検証します。今回は「スタジオジブリ風」という、特徴的なアニメーションスタイルを指定しました。
使用プロンプト:
A white cat with blue eyes gracefully flying through a sky full of fluffy clouds, beautiful and gentle animation, Studio Ghibli style. (ふわふわの雲が浮かぶ空を優雅に飛ぶ、青い目をした白い猫。美しくて優しいアニメーション、スタジオジブリ風で。)
生成された動画:
結果と考察: 生成された動画は、確かに手描き感のあるアニメーションになりました。猫の動きも滑らかで、指示通り「優雅に」飛んでいます。
しかし、「スタジオジブリ風」と指定したものの、期待していたほどの再現性はありませんでした。
これはおそらく、著作権への配慮からAIがスタイルの完全な模倣を意図的に避けているのが大きな理由でしょう。また、「ジブリらしさ」は色彩やキャラクターデザインといった非常に複合的な要素で成り立っているため、AIがそれを完全に解釈しきれないという側面もありそうです。
このような場合、ただ「〇〇風」と指示するだけでなく、そのスタイルを構成する具体的な特徴を言葉で補足するのが有効です。例えば、
with a nostalgic watercolor background
(ノスタルジックな水彩画の背景で)using a soft and warm color palette
(柔らかく温かみのある色彩を使って)
といった要素をプロンプトに加えることで、AIへの指示がより明確になり、イメージに近づけるはずです。
便利な「〇〇風」という言葉も、その中身を分解して伝える工夫が重要になりそうですね。
検証3:複雑な音声要素の組み合わせ
最後に、Veo3の真骨頂とも言える音声生成について、複数の要素を組み合わせた複雑な指示にどこまで応えられるかを試しました。セリフ、効果音、BGMを一度に指定します。
使用プロンプト:
Interior of a futuristic sci-fi laboratory. A sleek white robot is working. Suddenly, a red alarm light flashes with a loud alarm sound. The robot turns to the camera and says in a calm voice, “System override initiated.” with tense electronic music in the background. (未来的なSF研究所の内部。洗練された白いロボットが作業している。突然、赤い警告灯が大きなアラーム音と共に点滅する。ロボットがカメラに向き直り、落ち着いた声で「システムの上書きを開始しました」と言う。背景には緊迫感のある電子音楽。)
生成された動画:※ファイル容量が大きすぎてアップロードができなかったので変換してます、なので画質は少し落ちています。
結果と考察: このプロンプトに対する応答は、Veo3の能力の高さを明確に示していました。映像では指示通りの状況が展開され、音声に関しても「ロボットのセリフ」「BGM」の2つが、破綻なく適切なタイミングで再生されました。
特に注目すべきは、セリフの口調を指定した in a calm voice
(落ち着いた声で)という部分が、しっかりと反映されていた点です。緊急事態の中で冷静に話すロボット、という状況を見事に表現できていました。音声に関する指示は、かなり細かく制御できると考えて良さそうです。
しかし、細かく確認すると、指示した「大きなアラーム音」はあまり聞こえませんでした。
これはおそらく、プロンプト内で複数の音声要素(BGMと効果音)が競合したためと考えられます。AIが「緊迫感のあるBGM」の生成を優先し、その結果「アラーム音」がBGMに埋もれてしまったか、あるいは生成の優先度が下がってしまったのかもしれません。
このことから、セリフやBGMといった主要な音の生成は得意な一方、複数の音を適切にミックス(調整)する能力は、まだ発展途上と言えそうです。
まとめ Veo3を実際に使って見えてきたこと
今回は、Googleの最新動画生成AI「Veo3」の性能を、いくつかの検証を通じて探ってみました。
結論として、Veo3は驚くほど高品質な動画を生成できる、非常にポテンシャルの高いツールであると言えます。特に、光と影が織りなすリアルな雰囲気の表現や、セリフの口調といった細かいニュアンスを汲み取る音声生成能力には、目を見張るものがありました。
一方で、今回の検証からは、Veo3を使いこなすためのいくつかの重要なポイントも見えてきました。
- 得意なこと・強み
- ライティングやカメラワークといった、映像の雰囲気作り
- セリフの口調など、ニュアンスを含んだ音声生成
- 具体的で詳細な指示に対する、高い応答性
- 課題と、私たちが工夫すべきこと
- 動きの指示(スローモーションなど)は、より具体的に記述する必要がある。
- 特定の「〇〇風」というスタイルは、その「らしさ」を構成する要素(色彩、背景など)に分解して伝える工夫が求められる。
- 複数の音声要素(BGMと効果音など)のミキシングは、まだ発展途上の部分があり、意図通りにならない場合がある。
これらの結果から言えるのは、Veo3は「何でも完璧にこなす魔法の杖」というよりは、「こちらの意図を正確に伝えれば、驚くべき能力を発揮してくれる優秀なアシスタント」のような存在だということです。
いかにしてAIにこちらのイメージを正確に、かつ誤解なく伝えるか。いわゆる「プロンプトエンジニアリング」の重要性を、改めて実感する結果となりました。
おわりに
今回Veo3を試してみて、テキストから動画が生まれるという、かつては夢物語だった技術が、もはや実用レベルに達していることを肌で感じました。
もちろん、まだ完璧ではなく、クセや苦手なこともあります。しかし、そうしたAIの特性を理解し、人間側が「伝え方」を工夫することで、その可能性は無限に広がっていくでしょう。ブログのアイキャッチ、SNS用のショート動画、ビジネスシーンでのプレゼンテーションなど、その活用範囲は計り知れません。
動画制作が、専門家だけのものではなく、誰もがアイデア一つで挑戦できる時代。Veo3はその流れを確実に加速させる、強力なツールの一つです。
最後までお読みいただき、ありがとうございました。