アイレット株式会社 DX開発事業部の田村です!
DX開発事業部ではお客様のDX実現のために、生成AIのキャッチアップに日々取り組んでおります。
週刊でお届けしている生成AIニュースですが、本記事では特別号として、2025年5月20日に開催された Google I/O ’25で発表された、Googleの生成AIサービスに関するアップデートに関してまとめております!
Google 以外のニュースはいつもの記事に記載しておりますので合わせてご確認ください!

DX開発事業部 presents 週刊生成AIニュース 2025年5月19日週
アイレット株式会社 DX開発事業部です!DX開発事業部ではお客様のDX実現のために、生成AIのキャッチアップに日々取り組んでおります🔥本記事では日々アップデートされる生成AI周りのニュースを週刊でお届けします🚀AWSAmazon Bedrock Data Automation が動画ファイルのカスタム出力をサポートAmazon Bedrock Data Automation (BDA) が動画ファイルのカスタム出力をサポートしました。BDA は、ドキュメント、画像、音声、動画などの非構造化マルチモーダルコンテンツから、生成 AI アプリケーション向けの洞察を自動生成します。ブルー...

またありがたいことに、Google I/Oでのアップデート情報をNotebookLMにて共有されていますので、細かい内容は以下からお手軽に調べることが可能です!

Gemini モデルの最新情報

Gemini 2.5 モデルの機能拡張

Gemini 2.5 Proモデルでは「Deep Think」モードが追加されています。これはモデルが複数の仮説をもとに検討し応答を行うことができるモードで、数学やコーディングなど高度な計算が必要な複雑なユースケースに向いています。またモデルの思考プロセスを明確にしデバッグを容易にする「Thought summaries」モードが利用可能になっています。Gemini 2.5 Flash は6月上旬に、Gemini 2.5 Pro もその後まもなく Vertex AI で一般提供が開始されるとのことで、一般公開が待ち遠しいですね。

Gemini 2.5 Proモデルのホワイトペーパー

Google DeepMindは新しいホワイトペーパーを発表し、Gemini 2.5のセキュリティ向上について説明しました。特に間接的プロンプト注入攻撃に対処するための戦略を示し、Geminiの防御力を高めるために自動レッドチーム(ART)を導入しました。これは社内のGeminiチームが現実的な方法でGeminiを継続的に攻撃し、モデルの潜在的なセキュリティ上の弱点を明らかにする活動で、ホワイトペーパーの他の手法を組み合わせてGeminiの防御戦略を高めていくものとなっているようです。

Gemini Diffusion

Googleが新しい実験的なテキスト拡散モデル「Gemini Diffusion」を発表しました。このモデルは画像や動画生成モデルと同じようにノイズからテキストやコードを生成することができます。Gemini Diffusionのデモ版はGoogleのこれまでの最速モデルと同等のコーディング性能を持ちながらコンテンツ生成速度が大幅に向上しています。
現在はデモへのアクセスを希望する方向けにウェイティングリストが公開されています。

Gemini Diffusion
Gemini Diffusion is our state-of-the-art research model exploring what diffusion means for language – and text generation.

Gemini API の「URLコンテキスト」機能の登場

Gemini APIにてプロンプトに追加の文脈としてURLを提供できる「URLコンテキスト」が試験運用版として登場しました。このツールを使うとGeminiが指定されたURLからコンテンツを取得し、それを基に回答を生成してくれます。例えば、記事から重要な情報を抽出したり、複数のリンクの情報を比較・統合したり、特定のページの内容について質問に答えたり、コンテンツを分析したりといった様々なタスクに活用できます。
またこのツールは、URLコンテキスト単独でも、Google検索によるグラウンディングと組み合わせて使うことも可能です。

Gemini API の「ネイティブ オーディオ出力」

Live API を使用することで、ネイティブな音声入力に加えてネイティブな音声出力を可能にするモデルにもアクセスできます。より質の高い音声出力が可能になり、ペース、音声の自然さ、冗長性、ムードが向上するとのことです。

Gemini in Chrome が公開されました

デスクトップ向けに Gemini in Chrome が展開されます。閲覧中のウェブページの情報をGeminiで要約・説明が可能で、今後は複数のタブをまたいだ操作やウェブサイトをナビゲート機能の追加が予定されています。まずは米国のGoogle AI ProおよびGoogle AI Ultraのサブスクリプション向けに提供が開始されています。

Gemini Code Assist の一般提供

AI コーディングアシスタント「Gemini Code Assist for individuals」とコードレビューエージェント「Gemini Code Assist for GitHub」がついに一般提供されました。これらは最新の「Gemini 2.5」を搭載しており、Web アプリ開発やコード変換、編集など開発タスクの効率を大幅に向上させます。また今回チャット履歴やルール指定、カスタムコマンドといったカスタマイズ機能も強化されている他、コード提案のレビュー・承認プロセスも改善されています。

LearnLM in Gemini

Google I/O ’25 にて生成AIによる学習体験の進化が発表されました。Googleは知識へのアクセスを最優先しており、学習に特化したモデルファミリー LearnLMを Gemini 2.5 に統合することで、学習科学の原則に基づき単に答えを出すだけでなく理解を深めるための説明を提供し、複雑な問題も解きほぐす手助けをします教育専門家からのフィードバックも取り入れられているようです。

LearnLM
LearnLM in Gemini infuses learning science into Gemini and the products it powers to create the world’s most pedagogical AI.

Gemini Live の無料化

Google I/OにてGemini Live のカメラと画面共有が Android と iOS で無償化が発表されました。スマートフォンのカメラを使って言語化が難しい情報を連携し、リアルタイムなサポートを受けることができます。家電のトラブルシューティングやショッピングのアドバイスなどのユースケースで役に立ちます。

Gemma モデルの最新情報

Gemma 3n モデルの登場

Google はデバイス上で動作する高性能AIの実現を目指し新しいオープンモデル Gemma 3n のプレビューを発表しました。このモデルは Qualcomm、Technologies、MediaTek、Samsung の協力のもと開発された革新的なアーキテクチャを基盤としており、次世代の Gemini Nano にも採用されます。少ないメモリで動作し、デバイス上での高速なマルチモーダルAI処理、プライバシー保護、オフライン対応、多言語対応などが追加されています。ローカルで動作する組み込み可能なモデルとしては最先端をいくオープンモデルと言えるでしょう。
2025年の後半に提供開始予定のようです。

医療向けオープンモデル「MedGemma」

MedGemmaはGoogleの医療テキストと画像理解のためのオープンモデルで、Gemma 3に基づいて構築されています。開発者はMedGemmaを使用して医療AIアプリケーションの構築を加速できます。4Bマルチモーダル版と27Bテキスト専用版があり、医療画像の分類や解釈、医療テキストの理解に適しています。モデルのパフォーマンスを向上させるためには、プロンプトエンジニアリングやファインチューニングが必要なようです。

手話変換モデル「SignGemma」

SignGemma は手話を音声テキストに変換するオープンモデルで、開発者は聴覚障害者向けの新しいアプリや統合機能を開発できるようになります。ユースケースとして、アメリカ手話から英語への変換が例として挙げられています。

次世代メディアモデルの最新情報

画像生成モデル「Imagen 4」

テキストから画像を生成する画像生成AIモデルのImagen4が発表されました。Imagen 4モデルでは全てのスタイルにて全体的な画質の向上や多言語対応のサポートのほか、優れたテキストレンダリング能力とプロンプトの遵守がなされるようになりました。
これまでのモデルでは思った通りの画像生成ができない場合もありましたが、今後はそういった場面も少なくなってくると思います。
現在はGemini アプリ、Whisk、Vertex AI、およびWorkspaceのスライド、ビデオ、ドキュメントなどで利用可能です。

動画生成モデル「Veo 3」

Google DeepMindが提供する最新鋭動画生成モデルであるVeo 3がプライベートプレビューで公開されています。テキストや画像のプロンプトからの動画生成能力が向上し、会話などの音声や音楽などのオーディオを含んだ動画を生成できるようになりました。
Veo 3から音声付きの動画が生成できるため、創造性がより高まったのではないでしょうか。
米国のUltraサブスクリプションメンバー向けに、GeminiアプリとFlowで本日から利用可能で、 Vertex AIのエンタープライズユーザーも利用可能とのことです。

音楽生成モデル「Lyria 2」

テキストから音楽を生成するモデルであるLyria 2が一般公開されました。テキストからのオーディオコンテンツの生成や楽器、BPM、その他の特性に対するクリエイティブなコントロールの向上がされています。Vertex AI経由でモデルを利用することができるようです。
また、インタラクティブな音楽生成モデルである「Lyria RealTime」も、 APIおよびAI Studio経由で利用可能になりました。誰でもインタラクティブに、リアルタイムでジェネレーティブミュージックを制作、制御、演奏できるようになります。

AI映画制作ツール「Flow」の発表

Googleがクリエイター向けの新しいAI映画制作ツール「Flow」を発表しました。これはGoogleの先進的なモデルである「Veo」「Imagen」「Gemini」を基盤としており、映画制作者がアイデアを自由に探求し、高品質なクリップやシーンを作成することができます。
現在は米国のGoogle AI ProおよびGoogle AI Ultraプランの加入者向けにFlowが利用可能となり、近日中に他の国でもご利用いただけるようになるとのことです。
記事のリンクに映像がいくつか公開されていましたので、ご興味があればぜひ合わせてご覧下さい!

エージェントの機能強化

Agent Development Kit (ADK)の安定版リリース

Google Cloud Next ’25 で発表されたAgent Development Kit (ADK) は Python 版が v1.0.0 の安定版となり、Java 版 v0.1.0 も新たにリリースされ、より多くの開発者が柔軟かつ安定したエージェントを構築できるようになりました。

Vertex AI Agent Engine UI

Vertex AI Agent Engine UI が導入され、エージェントのデプロイ、管理、監視が Google Cloud コンソールで直感的かつ一元的に行えるようになります。ダッシュボード上でデプロイされたエージェントの表示と管理、セッションの一覧表示、アクションのトレースとデバッグ、エージェントのモニタリングを行うことができるようです。

Agent2Agent(A2A)プロトコルの進化

Agent2Agent (A2A) プロトコルは v0.2 仕様でステートレス通信や認証が強化され、A2A Python SDK も提供開始されます。Auth0、Box、Microsoft、SAP、Zoom といったパートナーも A2A 対応を進めており、エージェント間のシームレスで安全な連携が加速しています。各社が開発したエージェントエコシステムを利用していく基盤がどんどん整ってきていますね。

Firebase の最新情報

Firebase Studio

4月のGoogle Cloud Next ’25で発表されたクラウドベースの新しいAIワークスペースであるFirebase Studioのプレビュー版が初めて公開されました。Gemini 2.5モデルを搭載しており、プロンプトのみでアプリを作成したり、バックエンドの設定を自動化するなどの新機能が紹介されております。
Firebase StudioはクラウドベースのAIワークスペースで Gemini 2.5を搭載し Figmaデザインのインポートやバックエンドの自動設定機能が追加されました。さらにプロンプトだけでアプリを作成したり、コードでカスタマイズしたりすることも可能です。

Firebase AI Logic

昨年のGoogle I/Oで公開されたVertex AI for Firebaseや最近公開されたGenkitフレームワークなどが統合され、Firebase AI Logicとして進化しました。
クライアントSDKを通じてGemini Developer APIへの直接アクセスやGemini Nanoによるオンデバイス推論、UnityやAndroid XRでの利用、画像生成機能の強化、AIモニタリングダッシュボードの拡張などAI機能をアプリに組み込むための強力な機能が提供されています。また Firebase Model Context Protocol (MCP) Serverにより AIアシスタンスツールがFirebaseリソースと直接連携できるようになり、開発やトラブルシューティングを効率化してくれます。

その他のAI機能拡張

AI Overviewsの多言語対応

GoogleはAI Overviewsを新たに200カ国以上と40以上の言語で展開し、より多くの人々にAIの便利さを提供することを発表しました。AI Overviewsは検索結果において新しい質問を簡単に行い、迅速に情報を見つける手助けをします。特にアメリカやインドでは、AI Overviewsの使用によりGoogleの検索利用が10%以上増加しています。また、今後は最も知能の高いモデルGemini 2.5をAI Overviewsに導入し、より難しい質問にも対応できるように進化させていくとのことです。

非同期コーディングエージェント「Jules」の公開

昨年12月にGoogle Labsで公開された自律型コーディングエージェント「Jules」がパブリックベータとして提供開始されました。
このエージェントは単なるコード補完ツールではなくコードベース全体を理解しテストを作成し、バグ修正や機能追加、依存関係の更新といったタスクを非同期で自律的に実行します。パブリックベータ期間中は無料(使用制限あり)でベータ終了後に有料化予定のようです。

AI 生成コンテンツの検証ポータル「SynthID Detector」の発表

AI生成コンテンツの識別を助ける検証ポータル「SynthID Detector」が発表されました。こちらは透かし技術「SynthID」を活用し画像テキスト音声動画などGoogle AIで作られたコンテンツに埋め込まれた透かしを検出します。Geminiや各種メディアモデルなどGoogleのAIモデルで生成されたコンテンツに適用されており、SynthID Detectorにコンテンツをアップロードすると透かしをスキャンし透かしが埋め込まれている可能性が高い部分を特定してくれるようです。ジャーナリストやメディア関係者、研究者向けに先行公開が始まり、今後広く提供される予定とのことです。AI生成コンテンツの透明性を高めるための重要な一歩ですね。

Google Beamの発表

Google Beamは新しい3Dビデオコミュニケーションプラットフォームで、Project Starlineから進化したものです。このプラットフォームはAIを活用して、どこにいても意味のあるつながりを生み出します。標準の2Dビデオをリアルな3D体験に変換し、まるで同じ部屋にいるかのような自然なコミュニケーションを可能にします。Google Meetではほぼリアルタイムで低遅延の音声翻訳機能の提供が開始されています。Google AI Pro および Ultra サブスクリプションのベータ版で利用可能で、まずは英語とスペイン語で提供され、今後数週間でさらに多くの言語に対応する予定のようです。

Android XRへのGemini 統合

Googleは、XRデバイス向けプラットフォーム「Android XR」にAIモデル「Gemini」を統合する最新の取り組みを発表しました。ヘッドセットやメガネなどのデバイスでAIアシスタントがユーザーの視点を理解し、ハンズフリーでの操作やリアルタイムの情報提供が可能になります。Samsungとの提携によるヘッドセット「Project Moohan」や、Google I/OではAndroid XR搭載メガネのデモも披露されています。例えば、メガネはスマートフォンと連携し、メッセージ送信や道案内、リアルタイム翻訳など、日常生活をサポートする多様な機能を提供するようです。
近未来的な取り組みで、日常生活において生成AIがより身近な存在になってきていますね。

Learn more about Android XR
Discover how Android XR blends your digital and physical world and powers the next generation of immersive experiences on headsets and glasses.

LiteRTについて

Google AI Edge チームは LiteRT の新機能を発表しました。これはモバイルデバイスでのAI モデルの推論を加速するための新しい API や GPU および NPU サポートを提供し、開発者がより簡単に高性能なAI アプリケーションを構築できるようにします。新しいTensorBuffer API や非同期実行機能も追加されておりパフォーマンスの最適化が実現されています。

Google のAIツール情報

フロントエンドデザインツール「Stitch」の公開

Google Labs から新しい実験的ツール「Stitch」が登場しました。Stitch は、簡単なテキストプロンプトや画像から複雑な UI デザインとフロントエンドコードを数分で生成できる画期的なツールです。画像やワイヤーフレームからの UI 生成、迅速なデザイン反復、Figma へのペースト機能、そしてフロントエンドコードのエクスポート機能が提供されています。

Stitch - Design with AI
Stitch generates UIs for mobile and web applications, making design ideation fast and easy.

AI Mode in Searchの一般提供(米国)

今回、最先端のAI機能を体験できる「AI Mode in Search」が米国にて一般提供が開始されました。
AI Overviewsの導入以降、ユーザーは複雑な質問を行うようになり、検索の使用頻度が増加しているとのことです。
今回の新しいAIモードでは、検索結果の深掘りやリアルタイムでの対話が可能になり、ユーザーのニーズに応じた情報が提供され、よりパーソナライズされた検索体験と効率的な情報収集が期待されています。

Google AI Ultra の公開

Google は新しい AI サブスクリプションプラン Google AI Ultra を発表しました。このプランは、最高の AI モデルとプレミアム機能へのアクセスを提供し、特に映画製作者や開発者、クリエイティブ専門家に最適な機能が揃っています。月額 249.99 ドル(初回のユーザーは 3 ヶ月間 50% オフの特典)となっており、Google AI Ultra では、以下のようなツールを利用可能です。

  • Gemini アプリの最高バージョン
  • AI 映画制作ツール「Flow」
  • テキストと画像によるアイデアの視覚化ツール「Whisk」
  • 情報整理や検索効率化ツール「NotebookLM」

既存の AI Premium プランは Google AI Pro に改名され、このプランを契約中の方は追加費用なしで新機能が利用可能になります。

さいごに

今回のGoogle I/O ’25では、Geminiモデルを中心に既存ツールや新ツール、エージェント機能の強化が多く発表されました。生成AIも身近な存在として、日常生活からアプリ開発の現場までさまざまなシチュエーションで利用されるようになっていますね。
今後も最新情報が出ましたら週刊生成AIニュースとして発信していきますので、ぜひご確認下さい!