はじめに

DX事業部の岩塚です。
8/26に Google から新しい画像生成・編集モデルである Gemini 2.5 Flash Image の発表があったのでどのように画像が生成・編集できるのか試してみます。
https://deepmind.google/models/gemini/image/

特徴

新しいモデルの特徴としては主に3つあります。

  • キャラクターの一貫性を保ったまま画像生成・編集できる
  • 最大3枚の画像を組み合わせて新しい画像を生成できる
  • 1つの指示から複数の多様な画像を生成できる

検証結果サマリ

結論としては以下のような印象です。

  • 画像に関しては、日本語の指示であっても期待する画像を生成・編集できる
  • 複数の画像を参照させたり、会話を重ねて編集することもでき、期待通りの画像が作れる
  • テキストに関しては、英語なら比較的上手く生成できるが、日本語を生成させようとすると課題がある

実際に試した内容

今回は、このペンギン画像を元にして色々な画像を生成、編集していきます。

キャラクターの一貫性

まずはペンギンを仰向けにさせてみます。
プロンプト: 「ペンギンを仰向けにして」
結果:

違和感がない仰向けのペンギンが生成できました。

複数の画像の参照

今度は、鎧と砂漠の画像を添付して、砂漠の上にいる鎧を着たペンギンを生成させてみます。
プロンプト: 「ペンギンに添付画像の鎧を着せて、添付画像の砂漠の上を歩かせて。ただし、顔は見えるようにして」

結果:

参照用として添付した画像を用いて、見事に指示通りのペンギンが生成されました。

テキストを挿入する

続いて、画像内にタイトルを入れられるか試してみます。
まずは英語タイトルを追加します。
プロンプト: 「画像内に『A Penguin Soldier on a Sandcastle』を追加して」
結果:

特にスペルミス等もなく英語のタイトルが追加されました。

次に日本語のタイトルに変更してみます。
プロンプト: 「画像内の英語を『砂上のペンギンソルジャー』に変更して」
結果:

漢字が間違っていたり、カタカナの部分もミスがあります。
日本語に関してはまだ課題が残るようです。

複数の画像を生成

最後に一つのプロンプトから複数の多様な画像を生成します。
ペンギンなのに水が無いと可愛そうなので、オアシスを見つけるまでのストーリーを生成してもらいました。
プロンプト: 「鎧を着たペンギンが砂漠の中を歩き、最後にはオアシスを見つけて泳ぐ様子を6枚の画像で作成してください。画像に言葉やテキストを含めず、画像そのものだけで物語を伝えてください。」
結果:

ペンギンが歩いている様子や入水前に鎧を脱ぐシーンなど、一連の物語が繋がるように画像が生成されました!

まとめ

今回、Googleの最新画像生成モデル「Gemini 2.5 Flash Image」の検証を行いました。
検証の結果、キャラクターデザインの一貫性を保ったままポーズを変更したり、複数の参照画像を組み合わせて指示通りの新たな画像を生成するのは問題なく行えました。
一連のプロンプトから物語性のある複数枚の画像を生成することも可能で、コンセプトアートやイラスト制作の分野で強力なツールとなりそうです。

一方でテキストの生成に関しては課題があります。英語のテキストは正確に画像内へ挿入できましたが、日本語のテキストでは文字が崩れたり誤った文字が使われたりする問題が発生しました。日本語に関しては今後のアップデートに期待ですね!