• 検証日: 2026-06-11 / 公式ドキュメント確認日: 2026-06-11
  • 本記事で扱う機能(Grounding with Google Image Search)は試験提供中(Preview)です。今後、仕様や提供条件が変わる可能性があります。最新情報は公式ドキュメントを確認してください。

AI の知識には「いつまで」がある

「AI は最新のニュースを知らないことがある」——チャット AI を使ったことがある方なら、一度は経験があると思います。AI は過去のある時点までのデータで学習しており、それ以降の出来事を知りません。この「いつまで」を学習データのカットオフと呼びます。

文章の世界では、この問題への対策がすでに定着しています。AI が答える前に Google 検索を実行し、最新の情報を根拠にして回答する仕組み(グラウンディング)です。

では、絵はどうでしょうか。AI に「今年できたばかりの建物を描いて」と頼んだら、何が起きるのか。

Gemini の画像生成モデル「Nano Banana 2」(Gemini 3.1 Flash Image)には、Grounding with Google Image Search(Google 画像検索によるグラウンディング) という新機能が用意されています。公式ドキュメントの説明を引用します。

Google 画像検索によるグラウンディングを使用すると、モデルは Google 画像検索から取得したウェブ画像を、画像の生成時のビジュアル コンテキストとして使用できます。Google 画像検索は、既存の Google 検索によるグラウンディング ツール内の新しい検索タイプであり、標準の Google ウェブ検索と並行して存在します。Google 画像検索によるグラウンディングは、プレビュー版でのみ Gemini 3.1 Flash Image モデルで利用できます。

出典: Google 検索によるグラウンディング(Google Cloud 公式ドキュメント)

かみ砕くと、Gemini が画像を生成する前に Google 画像検索で関連するウェブ画像を探し、それを視覚的な参考情報として使いながら描く機能です。つまり「絵にも鮮度を与える」仕組み。本当にそうなるのか、実際に試しました。

お題: 2026 年 3 月にできたばかりの美術館

選んだお題は MoN Takanawa: The Museum of Narratives。東京・高輪ゲートウェイシティに 2026 年 3 月 28 日に開館したばかりの美術館です。

この建物を選んだ理由は 2 つあります。

  1. AI が知らない可能性が高いから。開館は 2026 年 3 月。学習データだけに依存する画像生成では、正確に描くのが難しいと考えられる題材です(学習データの中身は外部から確認できないため、検証で確かめます)
  2. 見た目に「正解」があるから。外装デザインは建築家・隈研吾氏。円形の建物の外周を木の帯(ルーバー)がらせん状に巻き、帯の間に植栽が施された、一度見たら忘れない形です

つまり「記憶だけでは正確に描くのが難しく、実物には明確な特徴がある」——鮮度を試すには最適のお題です。

検索なし: AI は「架空の美術館」を描いた

まず、検索機能を使わずに頼みました。「高輪ゲートウェイシティにある美術館 MoN Takanawa の外観を、実際の建物に忠実に描いて」。


図1: 検索なしで生成した「MoN Takanawa」— 角張ったガラス張りに波打つ緑のテラス。それらしい現代建築だが、実物とは似ても似つかない完全に架空の建物

返ってきたのは、ガラス張りに緑のテラスが波打つ、いかにも現代的な美術館でした。一見それらしい。でも実物とは何もかも違います。円形ですらありません。

API だけの話ではありません。ふだん使っているブラウザ版の Gemini(思考モード・画像生成は Nano Banana 2)に同じお願いをしてみても、結果はこうでした。


図2: ブラウザ版 Gemini(Nano Banana 2)に同じ依頼をした結果 — こちらも実在しない建物。ロゴ・看板・日本語の館名表記まで自然に作り込まれているが、いずれも架空のもの

注目してほしいのは、ロゴや看板、日本語の館名表記まで「それらしく」作り込まれていることです。作り込みが丁寧であるほど、見る側が架空だと見抜くのは難しくなります。

AI は知らないものを「知らない」と言わずに、それらしく描いてしまう——文章の世界でハルシネーション(もっともらしい嘘)と呼ばれる現象に近いことが、絵でも起きるわけです。

検索あり: 実物の主要な特徴に近づいた

次に、画像検索グラウンディングをオンにして、「Google 画像検索で MoN Takanawa の実際の写真を検索して、それを参考に描いて」と頼みました。


図3: 検索ありで生成した MoN Takanawa — 円形の建物を木の帯がらせん状に巻き、帯の間に緑。実物の外観の主要な特徴を捉えた画像になった

今度は、円形の建物を木の帯がらせん状に巻き、帯の間に植栽が覗く——実物の外観の主要な特徴を捉えた絵が返ってきました。

ただし、細部まで正確なわけではありません。よく見ると生成画像内の看板には「2026年3月開業予定」とあり、実際にはすでに開館しています。生成画像内の文字は不正確になりやすいため、今回評価したのは文字情報ではなく、建物外観の特徴です。

印象だけで「似ている」と言っても始まらないので、実物の外観の特徴を 5 項目に分けて、検索なし・検索ありを採点しました。実物の特徴は、開館を報じた報道・建築系メディアの記事と外観写真(後述の出典リスト)をもとに確認しています。本記事では権利上、実物写真は転載しないため、比較は特徴単位で行います。

判定基準 — ◯: 外観上の主要特徴が確認できる / △: 近い要素はあるが構造・配置が異なる / ✗: 主要特徴が確認できない

# 実物の特徴 検索なし 検索あり
1 平面が円形・楕円形の建物 ✗(角張ったガラス建築)
2 外周を水平の木の帯がらせん状に巻く
3 帯の間に植栽(立体的な緑化) △(緑はあるが形式が別物)
4 中層(地上 6 階・高さ約 45m)で周囲の高層ビルより低い
5 ガラスの箱型ではない(木の帯が主役の外観)

そして、応答に含まれていた画像検索グラウンディングの出典リストがこちらです(出典 7 件のうち重複 1 件を除いた全 6 件。URL は応答のリダイレクトリンクを解決したものです)。

参考にしたサイト 内容 URL
品川経済新聞 MoN Takanawa の外観紹介記事 https://shinagawa.keizai.biz/photoflash/9772/
Time Out Tokyo 施設紹介ページ https://www.timeout.jp/tokyo/ja/things-to-do/mon-takanawa
Yahoo!ニュース 「MoN Takanawa がベルサイユ賞に」の報道 https://article.yahoo.co.jp/detail/62a387f335f07694ac929f70d20ec0d19d260431
TECTURE MAG 隈研吾氏のデザイン監修記事 https://mag.tecture.jp/culture/20260407-147332/
DestinAsian 高輪ゲートウェイシティの紹介記事 https://destinasian.com/tokyo-attractions-takanawa-gateway-city
YouTube 高輪ゲートウェイシティの紹介動画 https://www.youtube.com/watch?v=tVmqcqgfZ0Q

実物の姿は、これらの出典リンク先でぜひ見比べてみてください。AI が実際にどの検索キーワードを使ったかも記録に残っていて、「TAKANAWA GATEWAY CITY MoN」「高輪ゲートウェイシティ 美術館 隈研吾」など、日本語でちゃんと検索していました。

うまくいかない場合もある: 「毎年あるもの」の罠

実は、この検証の前に一度失敗しています。最初のお題は「Google Cloud Next ’26 の基調講演会場」(2026 年 4 月開催のイベント)でした。同じくカットオフ後の出来事なので、検索すれば描けるはず——と思ったのですが。

AI が実行した検索キーワードの記録を見ると、こうなっていました。

「Google Cloud Next 2024 keynote stage」「Google Cloud Next 2025 keynote stage」…

プロンプトで「2026」と明示したのに、AI は自分が知っている 2024 年・2025 年のキーワードで検索してしまい、参考にした写真も全部過去のイベントのものでした。

Google Cloud Next のような毎年開催のイベントは、同じ名前の「過去の年」の画像が検索結果を埋めてしまうのです。一方 MoN Takanawa のような固有の名前を持つ新しいものは、検索が正確にそこへたどり着きます。つまり画像検索グラウンディングは「最新情報を必ず探してくれる魔法」ではなく、AI が組み立てる検索キーワードと、検索で返ってくる画像の中身に強く依存する仕組みです。検索の質が絵の質を大きく左右する——使いこなしのうえで覚えておきたいクセです。

使ってみて分かった 3 つのポイント

  1. 検索するかどうかは AI が決める。検索機能をオンにしただけでは、AI が「知っている」と思い込んでいるお題では検索しないことがあります。確実に効かせたいときは「画像検索で◯◯を検索して参考に」と頼み方で伝え、応答の記録(検索キーワードと出典)が残っているかを確認します
  2. 「毎年あるもの」より「固有の名前の新しいもの」。年次イベント・定番の被写体は過去の画像に引っ張られます。鮮度が活きるのは、世の中に登場したばかりの固有名を持つ被写体です

根拠のある画像生成がもたらすメリット

これまでの画像生成は「それっぽい絵は出るが、最新のもの・実在のものは描けない(描けても根拠が不明)」でした。この機能を使うと、カットオフ後に登場したものでも、参照元の出典を確認しながら描けるようになります。

新しくオープンした施設の紹介イメージ、発表されたばかりの製品を含む資料の挿絵——「最新の実在するもの」を扱う場面で、これまで人間が素材を探して加工していた作業の入口が変わります。生成された絵が出典に忠実であることまでは保証されないので、出典リンクと見比べて確認する一手間はセットです(今回の採点表もまさにその方法で作りました)。

実測で分かった、公式ドキュメントだけでは気づきにくい点

設定方法やリクエスト例の全体は公式ドキュメントを参照してください。ここでは、実際に試して分かった「ドキュメントを読むだけでは気づきにくい点」だけをまとめます(いずれも 2026-06-11 時点・Vertex AI の REST API(v1)での実測です)。

  • searchTypes はオブジェクト形式"tools": [{"googleSearch": {"searchTypes": {"imageSearch": {}}}}] が正解で、["IMAGE_SEARCH"] のようなリスト形式にすると 400 エラー(「Proto field is not repeating, cannot start list」)になります。通常の Google ウェブ検索(テキストのグラウンディング)と併用するときは {"imageSearch": {}, "webSearch": {}} と両方を宣言できます(どちらを使うかはモデルの判断)
  • 公式のリクエスト例には responseModalities がありません。画像生成まで行う場合は "generationConfig": {"responseModalities": ["TEXT", "IMAGE"]} を追加で指定します
  • 応答のフィールド名がドキュメントの説明と違います(2026-06-11 時点)。ドキュメント本文は出典を url / image_url と説明していますが、実測のレスポンスでは image.sourceUri(出典ページ)/ image.imageUri(画像そのもの)でした。Preview 期間でドキュメントが追随していない可能性があるため、実装時は実際のレスポンスを必ず確認してください
  • ツールを渡しても検索しないことがあります。実際に検索が走ったかは groundingMetadata の有無で判定できるので、業務で使うならこの確認を処理に組み込むと安全です

まとめ

  • AI の絵にも知識のカットオフがある。知らない建物は「それらしい架空の絵」になる
  • Grounding with Google Image Search を使うと、出典をもとに、できたばかりの実在建物の主要特徴を反映した画像を生成できた(外観の特徴 5 項目の採点で、検索ありの方が明確に実物に近づいた)
  • 効かせるコツは「検索の明示指示」と「固有名の新しい被写体」。毎年あるものは過去の画像に引っ張られる
  • 参照画像の転載には権利者の許諾が必要。出典リンクの提示が基本

AI の絵が「記憶の中の世界」から「いまの世界」へ。検索という裏付けを持った画像生成は、実在のものを扱う業務での使いどころをはっきり広げてくれそうです。

参考ドキュメント