みなさん、こんにちは!
Google I/O 2026で新しいマルチモーダル生成モデル、「Gemini Omni」が発表されました!
この記事ではそんなGemini Omniの特徴から、従来の動画モデル「Veo」との位置付け、そして実際の使い方まで余すことなくご紹介します!
Gemini Omniとは?
Gemini Omniは、Google DeepMindが開発したマルチモーダル生成モデルです。
そのファミリーの第一弾として、今回「Gemini Omni Flash」が発表されました。
開発チームが「動画版Nano Banana」と表現するこのモデルの最大の特徴は、
Geminiが持つ「高い知能(推論能力)」と「マルチモーダル」が完全に融合している点にあります。
単に動画を出力するだけでなく、テキスト、画像、音声、動画を横断して理解し、私たちの意図を汲み取ってくれます。
ここが異次元!Gemini Omniの3つの強み
Veoの遺伝子を引き継ぎ、知能を手に入れたGemini Omni。
具体的に何がそれほど異次元なのか、驚異的な3つの強みを解説します。
1. 会話による直感的な動画編集
「3秒目の背景をサイバーパンク風に変えて」「カメラアングルをもう少し引きにして」といった、
人間相手にお願いするような自然な言葉がそのまま通じます。
2. キャラクターやスタイルの「一貫性」
動画生成AIを使っていて、新しい修正指示を出すたびに以前の指示内容が変わってしまい、
「そこはそのままにしておいてよ!」と嘆いた経験はありませんか?
これまでのAIは、指示を追加するたびに以前の情報を忘れてしまうことが多く、何度も同じ指示を出し直すのがお決まりでした。
しかし、Gemini Omniではそのストレスが見事にクリアされています。
シーンやカメラワークがどれだけ激しく変わっても、人物のアイデンティティやオブジェクトの形、さらには声のトーンまで一貫性をキープしたまま、次の映像を作ることができます。
修正のたびにプロンプトを最初から打ち直す必要はありません。
3. 現実世界の「物理法則」や「知識」の理解
Gemini Omniは、物理法則に対する直感的な理解に加え、高度な専門知識や歴史・文化的な背景を持ち合わせています。
単にリアルな映像を作るだけでなく、現実世界のロジックに基づいて「次に何が起こるか」を論理的に推論できるため、ストーリーや文脈に破綻のない映像を作り出します。
Gemini Omniを実際に使ってみた!
まず、ベースとなる「ファンタジー風の街を歩く少年」の動画を生成。
中世のレザーベストを着た銀髪の少年が、ファンタジーの村の居心地の良い石畳の通りを歩いている映画のような3Dアニメーション。木漏れ日の温かい光。少年の動きを追うスムーズなパンニングカメラショット
そこから会話形式で、以下のように追加の指示を出してみました。
少年の顔立ち、服装、歩くモーションの一貫性は完全に保ったままで、背景だけを徐々に「現代の東京・渋谷の夜景の交差点」に切り替えて。渋谷のビル群のネオンや街灯のカラフルな光が、少年の銀髪やベストの表面にリアルに反射するように描画して。
「少年の顔立ち」「服装」「歩き方」はそのままに背景のみを的確に渋谷へと変えることができました!
引き続き様々なパターンで動画を生成してみましょう!!
と言いたかったのですが、お試しで遊んでいたら上限が来てしまいました、、
また、現時点(2026年5月21日)では作成できる動画の上限は10秒となっています。
以降はGoogleの公式サイトに記載されているユースケースを簡単にご紹介します!
マルチモーダル入力!
Gemini Omniでは動画、音声、画像など様々な入力をもとに動画を作成できます。
下記の画像のように、画像とBGMを合わせて、一つの映像に昇華させることもできます。


スタイル、モーション、エフェクトの適用
また、Google公式サイトではこんな使い方も紹介されていました。
1. ベースとなるスケートボードの映像と付与したいエフェクトの画像を用意
2. 画像のエフェクト(例:炎のグラフィックや煙)が、スケーターの動きに合わせて鮮やかに飛び出す、ストリート感満載の映像を作成


「物理法則」や「知識」の理解
Gemini Omniの強みでご紹介した物理法則やGeminiの知識を活かした動画も紹介されています。
ビー玉が加速し、仕掛けにぶつかり、次のギミックへと連動していく様子が、カクつくことなく驚くほど自然に、リアリティ溢れる映像として描かれています。


また、専門的な知識を正しく理解しているため、タンパク質の折りたたみという化学的知識をクレイアニメ特有の温かみのある質感やコマ撮りの動きとともに、分かりやすく解説されていました。


「Veo」と「Gemini Omni」の位置付け
Googleの動画AIといえば、「Veo」が有名ですよね。
Veoの強みである圧倒的な映像美をそのままに、より強化されたものがGemini Omniです。
簡単にまとめると、以下のような違いがあります。
- Veo: プロンプトから最高品質の動画を生成するのに特化したモデル
- Gemini Omni: 動画の生成はもちろん、生成した動画をベースに会話しながら「編集・再考」できる最新モデル
とはいえ、Veoと完全に置き換わって消えてしまったわけではありません。
以下のように、VeoとGemini Omniは両方を用途に応じて使い分けられます。
| モデル名 | 公式の定義 | プラットフォーム | 備考・今後の展開 |
|---|---|---|---|
| Gemini Omni | Create anything from anything, starting with video (動画を皮切りに、あらゆるものからあらゆるものを創り出す) |
・Gemini app ・Google Flow |
Gemini APIやエージェント環境への統合が順次進んでいます。 (数週間以内) |
| Veo | Our leading video generation model (主要な動画生成モデル) |
・Gemini app ・Google Flow ・Google AI Studio ・Gemini Enterprise Agent Platform |
4つのプラットフォームすべてで利用可能 |
Gemini Omniはいつから使える?気になるリリーススケジュール
「で、結局いつから使えるの?」という一番気になるスケジュールですが、嬉しいことに、
今回発表された「Gemini Omni Flash」は5月20日から順次ロールアウトが始まっています!
現時点で公開されている提供スケジュールは以下の通りです。
- 5/20より順次スタート!
世界中の「Google AI Plus」「Pro」「Ultra」を契約しているすべてのユーザーを対象に、GeminiアプリおよびGoogle Flowを通じて順次使えるようになります。 - 今週中から無料で順次スタート!
今週からは、YouTube ShortsやYouTube Createアプリのユーザー向けにも、なんと無料で順次提供が開始されます。 - 数週間以内には…
クリエイターだけでなく、デベロッパーや企業向けに、APIを通じた提供もまもなくスタートする予定とのことです。
まとめ
Google I/O 2026で発表された「Gemini Omni」は、これまでの動画制作の常識を根底からひっくり返す、まさに異次元のAIモデルです。
これまでの動画生成AIは「プロンプトを入れて一発勝負で出力する」のが一般的でしたが、Gemini Omniがもたらす革新はそこに留まりません。特に凄まじいのは、以下の圧倒的な強みです。
- 「会話で育てる」対話型編集: まるでプロのエディターと会話するように、チャットを重ねながらキャラクターや世界観を維持したまま動画を修正・リミックスできる。
- マルチモーダル: テキストだけでなく、画像、参考映像、音声など複数のアセットを完全に理解し、1つのハイクオリティな動画へまとめ上げる。
- 現実世界をシミュレートする「物理法則」の深い理解: Googleの強力な推論AIが融合したことで、重力や流体力学さらには歴史や科学知識までを正しく理解。従来の動画AIにありがちだった「映像の矛盾や不自然な破綻」を抑えた、説得力を持つ映像を創り出します。
これまでは高度な動画編集スキルや高価な機材がないと形にできなかった頭の中のアイデアが、
これからは「AIとの会話」で即座にプロレベルの映像へと昇華してくれます。
今後も引き続きアップデートを追いかけていきたいと思います!
最後までご覧いただきありがとうございました!
参考:https://blog.google/intl/ja-jp/company-news/technology/gemini-omni/