はじめに
この記事は、ラスベガスで開催されたGoogle Cloud Next 2025のセッション聴講記事です。
セッションタイトル:
What’s new with Gemini 2.5
Gemini 2.5 Pro、新たな高みへ
これから、すごい!つよい!Gemini 2.5 Proの進化ポイントを色々お話ししていきますが、
まず、先日プレビュー版がリリースされたGemini 2.5 Proは、制御された推論(controlled reasoning)とダイナミックな思考(dynamic thinking)という大きな進歩がありました!!
これによって、推論時にモデルが自己内省することで、以前のモデルよりもはるかに絶妙な、より人間の意図を汲み取ってくれるような、レスポンスができるようになりました。
今回の進化は、さまざまなベンチマークで素晴らしい成果があり、
例えば、LiveBench for CodingやChatbot Arenaなどで良い結果が出ているようです。
特にChatbot Arenaですが、AIの評価方法として、人間がどのAIモデル種類かわからない状態(目隠し状態)で評価を行います。
そんな中で、高い評価を得ていることは、単に研究室レベルの成果だけでなく、現実世界での有用性が高いことを示唆している、と言えますね。
また、Gemini 2.0モデルから2.5モデルへの進化の差は大きく、思考能力モデルにネイティブに組み込まれたことが大きな目玉ポイント!と言えそうです。
いままでであれば、個別の推論モデルが必要でしたが、Gemini 2.5ではProとFlashの両モデルが思考モデルとなり、より高度な推論をそのまま直接実行できるようになりました。
早速、Gemini 2.5の進化ポイントをあれこれ見ていきましょう!
今回紹介があったポイントは、主に以下でした。
- さらにロングコンテキストに進化
- マルチモーダル機能の強化
- 思考予算(Thinking Budget)の導入
- モデルサイズの多様性:Pro、Flash、Flash-Lite
さらにロングコンテキストに進化
Gemini Proモデルは、プレビュー版では100万トークンのコンテキストウィンドウを持ち、さらに、GAの際には200万トークンに拡張される予定です。
基本的に現在のGeminiシリーズでは、100万のコンテキストウィンドウが最大上限ですが、GAの際に一気に2倍に膨れ上がるっていうのは、わけがわからないよ、状態ですね。たのしみ。
さらに、初期のモデルの強みとして「干し草の中の一本の針」を見つけるような特定の情報の検索でしたが、
Gemini 2.5モデルでは、コンテキストウィンドウ全体にわたる精度が向上し、「干し草の中のすべての針」を見つけることができるようになっています。
これにより、法務調査や複雑なタスク、動画内の特定箇所の網羅的な検索など、より高度な応用が可能になります。
これは、プロンプトエンジニアリングで悩みがちだった、1つの問題に、プロンプト並び順などもありますが、手軽手法で使いやすく・改善しやすくなっていそうでワクワクしますね!クエリ書き換えなどの一手間なし、というのが、ほんとうに狂喜乱舞。
マルチモーダル機能の強化
どんどんいきます!マルチモーダル機能も進化を続けています。
テキストはもちろん、音声や動画などの多様な入力に対応し、それらを理解して推論する能力が向上しています。
将来的には、画像を入力として画像を出力する実験的なFlashモデルも登場予定で、高度な画像編集などが可能になる見込みです。
うぅーん、Geminiくんが五感を手にしている感があり、現実と関わりが深くなっていってますね。
思考予算(Thinking Budget)の導入
Gemini 2.5 Proはデフォルトで常に思考を行うモデルですが、今後登場するGemini 2.5 Flashでは、ユーザーが思考に費やすトークン数を制御できる「思考予算」が導入されます。
これにより、レイテンシやコストを考慮しながら、ユースケースに応じて思考の深さを調整できるようになります。
例えば、予測可能なタスクでは思考を少なく、複雑なチャットボットのようなタスクではより多くの思考を割り当てる、といった柔軟な運用が可能になります。
これも!実運用で悩みがちですよね。エージェントを使いたいが…とはいえ、思考をしてくれるとコストが跳ね上がり続けるという…。
そして、今の所思考部分はユーザで制御しにくい部分だったので、制御できる機能が追加されるのは、より使いやすくなりそうですね。
モデルサイズの多様性:Pro、Flash、Flash-Lite
Geminiには、Pro、Flash、Flash-Liteという異なるサイズのモデルが存在します。
- Pro: 大規模な推論、長文コンテキストの処理、複雑な財務分析など、あらゆる複雑なタスクにおいて最高の品質を提供するモデルです。
- Flash: リアルタイムストリーミングをサポートするのに十分な速度と、高い品質、マルチモーダル理解力、推論能力、コーディング能力を備えた主力モデルです。Live APIの基盤となるモデルです。
- Flash-Lite: 低コストかつ高速なモデルで、翻訳や要約などの単純なタスクや、コストが重要な大規模ワークロードに適しています。
Shopify社事例
セッションでは、Shopify社の事例が紹介され、その中で、Geminiを活用したLive APIのデモが大きいポイントであったと思います。
今回は、Live APIについて細かい説明は、せずあくまでどのように活用されているか。という話です。
Live APIの詳細はこちら
まずは、Shopify社の背景ですが、あらゆる規模の起業家を支援するEコマースプラットフォームであり、起業家はストアの開設からマーケティング、フルフィルメント、返品処理まで、多岐にわたるタスクをこなす必要があります。
これまで、人間のサポートアドバイザーを通じてマーチャントを支援してきましたが、規模の限界がありました。
そこでGeminiを活用することで、24時間365日、無限のサポートを提供できる可能性が見えてきました。
実際のデモでは、Shopify社アシスタントがリアルタイムの音声会話を通じて、ユーザーのShopify社ストアへの独自ドメインの接続を支援する様子が紹介されました。
特筆すべきは、事前のプロンプトが一切不要(DNSやドメイン名、Shopify社などの仕組み、など)で、基盤モデルが高度な理解を示した点です。
この技術に初めて触れた際、「不気味の谷」を完全に超えたと表現しており、まるで人間と会話しているかのような自然なインタラクションに大きな感銘を受けたと語られていました。
また、初期テストでは、ユーザーがAIに対して従来のチャットボットには決して話さなかったような深い悩みや希望を打ち明ける傾向も見られ、リアルタイム音声というモダリティが豊かでニュアンスのある会話を促していることが示唆されました。
「人間 + AI = 3」
Shopify社は、AIによるサポートが人間のサポートアドバイザーの役割を完全に置き換えるのではなく、両者が協力し合うことで最高のサポートが実現すると考えています。
AIは常に忍耐強く、素晴らしい記憶と広範な知識でユーザーを支援し、人間は共感や複雑な問題への対応を提供します。
まさに、これからの時代の人間とAIの協業の世界ですね!
さいごに
いかがだったでしょうか!痒い所に手が届くそんなアップデートでしたね!!
特に思考系に関する進化が目覚ましく、個人的にGemini 2.5を使っていても、そうなの、これこれ!という回答が多いように感じます。もっと、実際の業務などで利用できるのが今からわくわくしすぎて、夜しか眠れません。
また、Live APIなど、現実世界をどんどん操る力が増えていき、この進化から目を離せませんね。