革新的なハイブリッド思考モデル Gemini 2.5 Flash Preview が Vertex AI に登場🚀

DX開発事業部の西田です。

昨夜 Google Cloud Next ’25でも登場が予告されていた Gemini 2.5 Flash のプレビューバージョンが Google AI Studio と Vertex AI にリリースされました！

Start building with Gemini 2.5 Flash

developers.googleblog.com

Gemini 2.5 Flash

Gemini 2.5 Flash | Generative AI on Vertex AI | Google Cloud

Google Cloud

Gemini 2.5 Flash は Gemini 2.5 Pro よりも低いコストで Pro に次ぐ優れたパフォーマンスを出すコスト効率の良いモデルとなっています。
さらにユースケースによって品質、コスト、レイテンシのトレードオフを最適化する機能として「Thinking Budget（思考バジェット）」が取り入れられています。

Gemini 2.5 Flash は与えられたプロンプトに対してどのくらいの時間考える必要があるかを認識し、思考時間を自動的に決定します。
この思考にかける時間（トークン数）を自動または手動で制御することができるのです。

コンソール画面から確認してみます。

Gemini 2.5 Flash の場合は赤枠のように思考バジェットの設定欄があります。
この例では Auto に設定してありますが「こんにちは」のような簡単な指示では思考は行なわれませんでした。

マニュアルで思考バジェットを設定し、もう少し思考が必要そうな問いをしてみます。

---思考---

ユーザーはサイコロを2つ振った時の合計が7になる確率を知りたいようです。
確率計算の基本的な考え方に沿って説明します。

1.  **全事象（起こりうる全ての結果）を把握する**:
    *   サイコロ1つにつき出目は6通り（1, 2, 3, 4, 5, 6）。
    *   サイコロ2つなので、1つ目の出目と2つ目の出目の組み合わせは、6 × 6 = 36通り。
    *   これが全事象の数になります。

2.  **該当事象（合計が7になる組み合わせ）を把握する**:
    *   2つのサイコロの出目を (サイコロ1の目, サイコロ2の目) の組で考えます。
    *   合計が7になる組み合わせを探します。
        *   (1, 6)
        *   (2, 5)
        *   (3, 4)
        *   (4, 3)
        *   (5, 2)
        *   (6, 1)
    *   これ以外の組み合わせでは合計は7になりません。
    *   該当する組み合わせは6通りです。

3.  **確率を計算する**:
    *   確率は (該当事象の数) / (全事象の数) で求められます。
    *   今回の場合は 6 / 36 です。

4.  **確率を約分する**:
    *   6/36 を約分すると 1/6 になります。

5.  **回答を構成する**:
    *   全事象の数を説明する (36通り)。
    *   合計が7になる組み合わせを列挙し、その数を説明する (6通り)。
    *   確率の計算方法を示し、計算結果と約分結果を示す (6/36 = 1/6)。
    *   分かりやすく、**「確率は6分の1です」**と結論を述べる。サイコロを2つ振る場合の、出た目の合計が7になる確率ですね。計算してみましょう。

---回答---

まず、考えられるすべての場合の数を数えます。
1つ目のサイコロの出目は6通り（1から6）。
2つ目のサイコロの出目も6通り（1から6）。
サイコロ2つの出目の組み合わせは、これらを掛け合わせた数だけあります。
6通り × 6通り = 36通り
これが、サイコロ2つを振ったときに起こりうる全ての結果の数（全事象）です。

次に、出た目の合計が7になる組み合わせを探します。
（1つ目のサイコロの目, 2つ目のサイコロの目）の組で考えてみましょう。
合計が7になる組み合わせは、以下の通りです。
*   (1, 6)
*   (2, 5)
*   (3, 4)
*   (4, 3)
*   (5, 2)
*   (6, 1)

合計が7になる組み合わせは、この6通りだけです。

確率は、「該当する組み合わせの数」を「考えられるすべての組み合わせの数」で割ることで求められます。
確率 = (合計が7になる組み合わせの数) / (すべての組み合わせの数)
確率 = 6 / 36

この分数を約分すると、
6 ÷ 6 = 1
36 ÷ 6 = 6
なので、
確率は 1/6 となります。

したがって、サイコロを2つ振って出た目の合計が7になる確率は、**6分の1（1/6）**です。

思考を行ったうえで回答を導き出していることがわかります。
この問題に関しては思考バジェットをオフにした場合も Gemini 2.5 Flash は6分の1の答えを導くことはできましたが、その場合は思考は出力されませんでした。

価格

Vertex AI Pricing | Generative AI on Vertex AI | Google Cloud

Discover flexible pricing for training, deployment, and prediction for Generative AI models with Vertex AI. Build and scale intelligent applications efficiently.

Google Cloud

価格を確認すると通常の入出力におけるコストは Gemini 2.0 Flash と変わらないことがわかりました。
ただし、思考を行なわせると出力コストが大きく上がるので、思考バジェットをうまく利用して運用していくことがコストを抑えるのに役立つでしょう。

モデル名	種類	価格（/100万トークン）<= 200K 入力トークン	価格（/100万トークン）> 200K 入力トークン
Gemini 2.5 Pro	入力（テキスト、画像、動画、音声）	$1.25	$2.5
	出力（応答・推論含む）	$10	$15
Gemini 2.5 Flash	入力（テキスト、画像、動画）	$0.15	$0.15
	入力（音声）	$1	$1
	出力（思考なし）	$0.60	$0.60
	出力（思考あり：応答・推論含む）	$3.50	$3.50

※ 入力コンテキストが200Kトークンを超える場合、すべてのトークン（入力・出力）は高レートで請求されます。

SDKで実行

!pip install google-genai==1.11.0

from google import genai

PROJECT_ID = "[your-project-id]"  # @param {type: "string", placeholder: "[your-project-id]", isTemplate: true}
LOCATION = "us-central1"

client = genai.Client(
  vertexai=True, project=PROJECT_ID, location=LOCATION
)
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents='サイコロを2つ振ると、出た目の合計が7になる確立はどれくらいでしょうか？',
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024 # 未設定はAuto
    )
  )
)

#print(response.model_dump_json(indent=2))
print(f"thoughts_token_count: {response.usage_metadata.thoughts_token_count}")
print(f"total_token_count: {response.usage_metadata.total_token_count}")
#print(response.text)

thoughts_token_count: 808
total_token_count: 1160

思考の取得もSDKで試してみたかったのですが、今は取得ができないようです。

`None` candidates while using the models.generate_content_stream() function with include_thoughts set to `True` · Issue #226 · googleapis/python-genai

Ok so I upgraded to the latest version of the SDK (0.7.0). I tried using the gemini-2.0-flash-thinking-exp-01-21 model with include_thoughts set to True in stream mode. However, no thought is being...

GitHub

Google Cloud Next ’25から一週間足らずで予告通り Gemini 2.5 Flash を出してくるスピード感に脱帽です！
Gemini 2.5シリーズもよりコストパフォーマンスを意識したモデルが出揃ったところで、これまでの性能では難しかったようなことや新しい取り組みをお客様にご提案して参りたいと思います❤️‍🔥

革新的なハイブリッド思考モデル Gemini 2.5 Flash Preview が Vertex AI に登場🚀

Gemini 2.5 Flash

価格

SDKで実行

Datadogのログ監視で日本語文字列のログを除外する方法

AWS SDK でカスタムルート証明書を突破する方法

Google Workspace 管理者必見！Google Vault の機能を試験学習を通して深掘りしてみた

アイレット広報通信2025年7月号

LCU予約(ロードバランサーキャパシティユニット予約)を設定時刻で自動実行するように実装してみた(Slack通知有)(LambdaとEventBridge)

革新的なハイブリッド思考モデル Gemini 2.5 Flash Preview が Vertex AI に登場🚀

Gemini 2.5 Flash

価格

SDKで実行

関連記事Related Articles

LangChainでGemini Pro Visionにマルチモーダルな問い合わせをやってみる

Dialogflow CXの会話履歴ログをBigQueryにエクスポートしてGeminiで感情分析してみる

【Google Cloud Next ’24】Gemini in BigQueryとData Canvasを早速使ってみた🔍✨

Gemini Nanoが切り開く未来の可能性

【Google Cloud Next ’24】Vertex AI はどのようにモデルのカスタマイズを容易にしているか