古いMac miniで動かしてみる
2026年4月、Google DeepMind から Gemma 4 がリリースされました。 E2B・E4B のエッジ用の小さいモデルから 26B・31B の大規模モデルまで発表されています。
リリースされた後に様々なところから出てきた検証記事は、当然ながらRTX 4090 などの高性能なGPUや、Appleの MシリーズCPUのMacでの動作報告がほとんどです。 今回は私の部屋にあった 2018年製の Intel Mac mini(RAM 64GB)で、実際にどの程度の速さで動くのか、使い物になるのか、実験してみました。
検証環境
今回使用した環境はこちらです。
| 項目 | スペック |
|---|---|
| 機材 | Mac mini 2018 |
| CPU | Intel Core i7-8700B(6コア / 12スレッド) |
| RAM | 64GB DDR4 |
| GPU | Intel UHD Graphics 630(iGPU、VRAM なし) |
| OS | macOS Sequoia 15.x(OpenCore Legacy Patcher 適用) |
| Ollama | 0.20.x |
| モデル | gemma4:26b(Q4_K_M)、gemma4:e4b |
Mac mini 2018 は公式には macOS Sequoia に非対応ですが、OpenCore Legacy Patcher を使って無理やり動かしています。
Gemma 4 の主なモデル
Gemma 4 はエッジ向けの E2B / E4B(どちらも 4bit で 5GB前後)、26B A4B(MoEで実質4Bアクティブ、18GB前後)、31B Dense(20GB前後)のラインナップです。 今回実験してみるMacは、とりあえず64GB あるので、理論上はどれも載ります。 ただ、大規模なものはさすがに厳しいのは事前に分かっている事なので、26B と、エッジ向けの E4B を使います。
インストール手順
準備として、Ollama のインストールとモデルのダウンロードを行いました。
1. Ollama のインストール
Homebrew で入れて、バックグラウンドで起動しておきます。
brew install ollama
ollama serve &2. モデルのダウンロード
まずは中規模の 26B(約18GB)から。
ollama pull gemma4:26b続けてエッジ向けの E4B(約9.6GB)も取っておきます。
ollama pull gemma4:e4b実験 1:gemma4:26b の速度計測
まずは 26B モデルで、素直にテキスト生成させてみました。
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:26b",
"prompt": "日本語で自己紹介してください",
"stream": false
}'計測結果
| 指標 | 値 |
|---|---|
| 生成トークン数 | 885 tokens |
| 生成時間 | 約332秒(約5.5分) |
| 生成速度 | 2.66 tok/sec |
| モデルロード時間 | 約10.5秒 |
1回の応答で5分以上かかりました。 フリーズしたのかな?と思うくらい返答が遅いという感じでした。 実用的ではないですね。
tok/sec の算出について
Ollama の API レスポンス(JSON)には、計測に便利な値がいくつか含まれています。
{
"model": "gemma4:26b",
"response": "はじめまして。私は、Googleによってトレーニングされた...",
"done": true,
"eval_count": 885,
"eval_duration": 332736091630,
"load_duration": 10550516902,
"total_duration": 347297003445
}eval_count:生成したトークン数eval_duration:生成にかかった時間(ナノ秒)load_duration:モデルのロード時間(ナノ秒)total_duration:合計時間(ナノ秒)
生成速度は次の式で求められます。eval_duration はナノ秒です。
tok/sec = eval_count ÷ (eval_duration ÷ 1,000,000,000)
例)885 ÷ (332,736,091,630 ÷ 1,000,000,000) ≒ 2.66 tok/sec実験 2:gemma4:e4b に切り替え
次に、エッジ向けの小さいモデル E4B で同じことをやってみました。
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "日本語で自己紹介してください",
"stream": false
}'計測結果
| 指標 | 値 |
|---|---|
| 生成トークン数 | 745 tokens |
| 生成時間 | 約279秒 |
| 生成速度 | 2.67 tok/sec |
結果は 26B とほぼ同速度。 モデルサイズを小さくしても速度が伸びないので、 Intel UHD 630 と DDR4 メモリの組み合わせによるメモリ帯域側がボトルネックになっていそうです。
実験 3:Thinking モードの影響
色々と調べているなかで、Gemma 4 はデフォルトで Thinking モードが有効になっている事を知りました。 思考プロセスが走るので応答が遅くなりがちかと思いまして、think: false を指定して無効化、 エッジ向けの小さいモデル E4B で再度計測し直しました。
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "日本語で自己紹介してください",
"stream": false,
"think": false
}'結果比較
| 条件 | 生成速度 | 応答完了までの時間 |
|---|---|---|
| Thinking あり | 2.67 tok/sec | 約5分 |
| Thinking なし | 2.86 tok/sec | 約70秒 |
tok/sec 自体はほとんど変わりませんが、体感の待ち時間が短くなりました。 今回もそこそこ待たされましたが、画面からちょっと目を離したら終わっていた、程度には改善しています。
実験 4:Metal GPU レイヤーの効果
Intel UHD 630 でも macOS の Metal API には対応しているので、GPU レイヤーを割り当ててどこまで改善するか試してみました。
OLLAMA_GPU_LAYERS=10 OLLAMA_NUM_THREADS=6 ollama serve &チューニング結果
| GPU_LAYERS | 生成速度 |
|---|---|
| 0(CPU のみ) | 2.67 tok/sec |
| 10 | 2.98 tok/sec |
| 20(今回採用) | 3.42 tok/sec |
| 32 | 3.44 tok/sec |
GPU_LAYERS=20 で CPU のみの場合から約17%速度向上。 32 まで上げても伸びは誤差の範囲だったので、今回は 20 を採用しました。
最終結果まとめ
以上の検証結果をまとめるとこんな感じです。
| 条件 | 生成速度 |
|---|---|
| デフォルト(26B, Thinking あり) | 2.66 tok/sec |
| E4B + Thinking なし | 2.86 tok/sec |
| E4B + Thinking なし + GPU_LAYERS=20 | 3.42 tok/sec |
色々と設定変更をしていくと、長めでも 1分前後 で結果が返ってくるくらいには改善しました。
結論:Intel Mac mini 2018 で実用できるか?
実験の中で用途を色々と考えましたが、用途別に評価表を作ってみました。
| 用途 | 評価 |
|---|---|
| curl 経由での単発の質問 | △ 許容範囲 |
| オフライン・プライバシー重視のバッチ処理 | △ 条件付きで可 |
| チャット UI でのリアルタイム会話 | ✗ 厳しい |
| AI エージェントの常時稼働 | ✗ 困難 |
結論としては「動くけど、用途が狭いので使い道が思い浮かばない」というのが正直な感想です。 特に多くの人がAIの用途として想定している、チャットで応答を求めるのは難しい待ち時間になってしまいますね。
やはり、Apple Silicon のような広帯域の統合メモリ環境で使うのが無難だと思います。 今回の実験は、Gemma 4 を動かす上での「下限値」の参考として見てもらうと良いかもしれません。
おわりに。注意点など。
- 2018年製の Intel Mac mini でも、Gemma 4 は動くには動きます。
- 実用的に使うなら、Apple Silicon のMシリーズを使うほうが良いです。
- Thinking モードは体感速度に大きく影響するので、用途によっては
think: falseが有効です。 - iGPU でも Metal アクセラレーションは効くので、
OLLAMA_GPU_LAYERSは試す価値があります。ただ上げすぎても効果は頭打ちなので、適度な値で様子見がおススメです。 - 古いMacをローカル LLM 検証用サーバーとして再利用するのは、色々と設定を変えながら試行錯誤が必要。。。
「古い Intel Mac で最新のモデルが動くのか?」という実験でしたが、Thinking モードの設定や iGPU での Metal の効き具合など、色々な知見が得られました。 Apple Silicon のMシリーズ環境でも活かせる設定変更かもしれませんので、また試してみたいなと考えています。