Gemini 2.5 Flash-Lite の正式版がGAされました！

鹿嶋未郷エンジニアブログ 2025.07.23

こんにちは。DX開発事業部の鹿嶋です。ねこ、吸ってますか？

昨日、Gemini 2.5 Flash-Lite の正式版が一般提供（GA）開始されました。
今回の記事では、主要な特徴を簡潔にまとめてご紹介します！

Gemini 2.5 Flash-Lite is now stable and generally available | Google for Developers Blog

Google for Developers

特徴

Gemini 2.5 Flash-Lite、2.5 Flash、2.5 Proの機能比較表

※画像出典（https://developers.googleblog.com/ja/gemini-25-flash-lite-is-now-stable-and-generally-available/）

Gemini 2.5 Flash-Lite は、従来の 2.0 Flash-Lite や 2.0 Flash よりも低レイテンシでの利用が可能となっています。そのため、翻訳や分類などの応答速度が重要なタスクに最適となります。

また、2.5系のモデルの中で、最も低コストで大量のリクエストを処理することが可能であり、音声入力のコストも、プレビュー版提供時より40%抑えられています。

入力トークン: $0.10 / 100万トークン
出力トークン: $0.40 / 100万トークン

前バージョンの 2.0 Flash-Lite との比較においては、特に以下の分野での品質向上が見られているとのことです。

コーディング
数学分野
科学分野
推論
マルチモーダル理解・処理

最後に、最も軽量なモデルでありながらも、他の2.5系のモデルと同様に以下の機能も利用可能です。

100万トークンのコンテキストウィンドウ
思考時の利用トークン数制御
Google 検索との連携
コードの実行
URL コンテキストへの対応

利用方法

コード内のモデル指定箇所で、gemini-2.5-flash-lite を指定することで、Flash-Lite 2.5 を利用することができます。

プレビュー版を利用している場合、gemini-2.5-flash-lite に切り替え可能です。
※ Flash-Lite のプレビュー版エイリアスは、8月25日に削除される予定です

実際に使ってみた

Google AI Studio または Vertex AI Studio から利用可能とのことなので、後者にて利用してみました！

今回は翻訳タスク、画像生成（説明）タスク、URLの要約タスクの3つを行なってみましたが、どれも3秒以内に全てのレスポンスが返ってきました。
Thinking を OFF にした 2.5 Flash と比較しましたが、特に画像生成（説明）などはレスポンスまで5,6秒弱かかったため、高速化が目に見えて実感できました。

おわりに

Gemini 2.5 Flash-Lite の登場により、用途に応じた最適なモデルの選択肢がさらに広がりました！

特に今回実際に試してみて、レスポンス速度の違いは想像以上に体感できるレベルでした。
リアルタイム性が求められるアプリケーションや、大量のリクエストを処理する必要があるサービスでは、その真価を発揮してくれるものと思います。

皆さんのお手元でも簡単に試せますので、ぜひ体験してみてください！

エンジニアブログ

この記事を書いた人

鹿嶋未郷 DX開発事業部所属。毎日ねこに生かされています。鹿嶋未郷が書いた記事