はじめに

当該記事はラスベガスで行われていた Google Cloud Next 2025 の Day3 の Compute Engine best practices: Optimizing cost, workload management, and scalability に関する記事となります。

概要

セッションでは、全ユーザ共通と言ってもいい課題として、コスト、信頼性、スケーラビリティ、最新機能への対応について話されておりました。

3つのカテゴリ毎の課題

AI/ML

課題

HPC のジョブに関して、ジョブは開始から終了まで動いておく必要がありますが、常時動作しておく必要はございません。そのため、必要なときに必要なリソースを確保する必要があります。

解決策

DWS (Dynamic Workload Scheduler)があげられ、DWS で GPU を要求し、確保できるところのデモが行われておりました。
過去に私がこちらで少し細かく記載しておりますので、こちらよろしければ御覧ください。
内容としては、DWS では必要な容量と時間指定を行い、利用な場合に一括で GPU リソースを確保できますので、少し余裕のあるジョブのワークロードには最適です。
他にも、Cluster Director という HPC 関連のインスタンスを扱ううえで、待望の機能があり、メンテナンスの管理やジョブの管理を行うことができるようになる予定となります。
他にも Cluster Toolkit の紹介などが行われており、つい1年ほど前には耳にすることもほぼなかったものが、大勢の場で公開されており、驚きました。

Cluster Director は本当に今後の HPC でのインフラ運用ではかかせない機能になると思っています。推し機能です。
上記しておりますが、メンテナンス状態は1時間前に把握するのがやっとでそれに対して管理する方法などを定義することができませんでした。それを完全に制御することが可能と記載されております。

Cluster Toolkit にも軽くふれておくと HPC 環境をデプロイするためのプループリントとなります。

参考
Clustor Director
feedbackCluster Toolkit
DWS

クラウドネイティブアプリケーション

課題

クラウドネイティブアプリケーションが指しているのはトラフィック変動に併せてスケールし伸縮性が求められるアプリケーションです。そのため、通常インスタンス1台や単純な複数台の構成では、トラフィックの量に応じた伸縮は難しいです。

解決策

  • MIG (マネージドインスタンスグループ)
    • 多数の VM を効率的にまとめて管理し、高可用性、スケーラビリティの実現が可能
    • 従来は同じインスタンスタイプで構成する必要がありましたが、複数のインスタンスタイプで要求を満たすように構成することも可能になり、インスタンスの枯渇による起動不可を防ぎ、自動でスケールが可能
    • その他真新しくはありませんが、既存の VM から作成、アプリケーションのヘルスチェック(無応答の場合再作成)、ローリングアップデートなど

複数のインスタンスタイプのイメージは以下です。

参考:https://cloud.google.com/compute/docs/instance-groups/create-mig-with-multiple-machine-types?hl=ja

従来型

課題

個々の VM が手動で構成され、容易にはスケーリングができず、定期的なアップデートが求められる。

解決策

運用上必要になるものがあげられておりました。

  • VM Manager でパッチ適用を行うことが可能
  • 確約利用割引の対象を見極めて決定する
  • バックアップと復元を確実に行う
  • VM のリソース最適化の推奨事項を確認すること
  • 容量予測を行い計画する

参考
VM Manager
CUD

まとめ

他の Cloud Run や AlloyDB などと比べてアップデートは少ないですが、Compute Engine ではパッチ管理する機能があり、オートスケーリングもあり、ある程度必要なものは整っています。
その中でも HPC に特化した Cluster Director がでてきたり、Cluster Toolkit、DWS など、HPC 特化の機能がフィーチャーされており、注目度の高さが伺えました。
HPC インフラについては、 Rapid Storage や Google Cloud Managed Lustre というストレージ周りも整ってきているため、インフラ面において直近の主役になりそうだなと。感じました。
※ Rapid Storage や Google Cloud Managed Lustre については、こちらのストレージで少し詳細に書いておりますので参照ください。