はじめに

  • こんにちは、エンタープライズクラウド事業部の新川です。先月5月23日に開催されたOracleのDeveloper Day 2025 に参加しました。今年のDeveloper Day 2025は、日本オラクル株式会社でオフラインのみ開催されました。私がオラクル青山センターにお邪魔するのは10年ぶり。おひさしぶりで、テンション上がります!
  • 本記事では、そのイベントレポートとして、印象的だったセッションの内容をご紹介します。
  • 先ず1つ目の投稿は、14:10–14:50 に行われたブレイクアウトセッション [T2-1] のレポートになります。
    • タイトル: OCI Kubernetes Engine (OKE)で実現する超スケーラブルなAIプラットフォーム 〜 24,000 GPU K8sクラスタ
    • スピーカー: 日本オラクル株式会社 古手川様

 

セッション概要

  • このセッションでは、AIモデルの学習・推論プラットフォームに、Kubernetes を選択する理由、OCI/OKE を選択する理由の説明がありました。
  • OKEに関する知識がなかった私にとって、このセッションは多くの「なるほど!」という発見がありました。特に以下の点が大きな収穫でした。
    • 大規模にGPUを利用する多くの顧客で、AI基盤にOKE(OCI Kubernetes Engine)が利用されている点
    • OKE のインフラを構成するクラスタ、ネットワーク、ストレージの具体的な特長と、それらがAI基盤にどう貢献するか
    • OKE を活用したGPUクラスタ構築におけるノウハウ

 

OKE とは?基本をおさらい

  • セッション内容に入る前に、まずはOKEの基本的な知識をおさらいしましょう。OKE の正式名称は、「Oracle Cloud Infrastructure Container Engine for Kubernetes」です。
  • これは、Oracle Cloud Infrastructure(OCI)が提供するマネージドのKubernetes サービスで、コンテナ化されたアプリケーションを構築し、運用・管理を容易にするサービスです。
  • Kubernetesの管理をOKE に任せることで、ユーザーはインフラの複雑さから解放され、アプリケーション開発やAIモデルの学習・推論といった本来の業務に集中できます。
  • すでに多くの企業において、AIインフラストラクチャとしてOKE が選択されているとのことです。
  • OKE の概要について、詳しくは以下をご参照ください。

 

なるほど。OKE インフラの魅力!

  • このセッションで紹介されたOKE のクラウド基盤、OCI Supercluster の特長を以下に記載します。
  • GPU を最大限活用するクラウド基盤:OCI Supercluster
    • OCI Superclusterの主要なアピールポイントは、以下の3つです。
    • NVIDIA のリファレンス設計に従ったベアメタルGPUサーバーを使用し、最大で131,072 GPU を使用した単一のクラスタを構成可能。高いAI学習性能を実現し、かつ実装コストも削減できる。
    • 最大61.4 TBのNVMe SSDストレージを搭載。さらに高性能な共有ストレージ・サービスも提供。高速ストレージで、GPUへのデータ入力や学習時のチェックポイントを高速化できる。
    • GPUサーバー間を数μ秒、最大28.8 Tbps の高帯域で接続した超低遅延のネットワーク。RoCEv2 RDMAネットワークを実装してパフォーマンスをスケール。AI学習時間の短縮が可能になる。(RDMA:Remote Direct Memory Access、RoCEv2:RDMA over Converged Ethernet version 2)
  • 驚きです。OCI Supercluster で作るクラスタには、これだけ多くの数のGPU が使用できるのですね! まさに、データセンターに並ぶサーバー、ストレージ群が目に浮かぶようです。

 

GPUクラスタ構築のノウハウ

  • 今回のセッションでは、Supercluster のコンピュートインスタンスをOKE のワーカーノードとして組み込む方法が具体的に紹介されました。
  • OKEクラスタにはコントロールプレーンとデータプレーンがあり、データプレーンはワーカーノード(アプリケーションが実行されるPod を動作させるコンポーネント)で構成されます。
  • 一般的にOKE のワーカーノードには、仮想ノード、管理対象ノード、自己管理ノードの 3種類があります。自己管理ノードは、顧客が作成したインスタンスをノードとして使用する方法となりますが、Supercluster上のGPUノードをワーカーノードとして組み込むには、自己管理ノードを使用することになります。

 

  • 通常、OKE ではPod にNIC を1つしか構成することができません。しかし、Supercluster の特徴であるRDMA(Remote Direct Memory Access)を活用するためには、複数のNICやRDMAに対応したPodの構築が必要です。
  • これを実現するために、「Terraform OCI module for OKE」が紹介されました。これは、RDMA 接続を備えたGPUノードで構成されるOKEクラスタをデプロイするためのTerraformスクリプトです。
  • さらに、OCIリソースのプロビジョニングを自動化できるサービスである「OCI Resource Manager」を使用することで、Terraform構成ファイルをアップロードして、OCIリソースをスマートに構築できます。
  • Terraformスクリプトは、以下のリンクから提供されます。

 

  • Quick Startを利用することで、GPU のモニタリングやGPU & RDMA のヘルスチェックも簡単にセットアップできるとのことでした。
    • GPU関連のメトリクスをPrometheus にエクスポートし、Grafanaのダッシュボードで視覚的に表示できます。これにより、GPUの利用状況をリアルタイムで把握し、最適な運用に繋げられます。
    • Node Problem Detector を使用することで、Supercluster向けにカスタマイズされたノード障害検知機能が利用できます。これにより、システムの安定稼働をサポートします。

 

OKE 解説の資料

 

まとめ

  • 今回のセッションを通して、私が感じたOKE の魅力をまとめると、以下の3点です。
    • OKEには、OCI Superclusterと呼ばれるクラウド基盤があり、GPUの性能を発揮するための高性能なハードウェア(GPU、Storage、Networking)が最適に設計されており、高いAI学習性能を提供している。
    • OKEクラスタをプロビジョニングするためのTerraform スクリプトやQuick Startが提供されており、GPU & RDMA を使用した環境構築が自動化されている。
    • OKEでは、PrometheusやGrafanaといった監視ツール、Node Problem Detectorを使用したノード障害検知機能など、Kubernetesのエコシステムで広く採用されている仕組みを活かしつつ、OKE向けにカスタマイズされ利用できる。

 

押さえておきたい!

  • 最後に、今回のセッションのスピーカーである古手川様が主催されている、Oracle Cloud の勉強会 「OCHa Cafe」についてもご紹介します。ご興味のある方は、ぜひチェックしてみてください。

Oracle Cloud Hangout Cafe、略してOCHa Cafe(おちゃかふぇ)
https://www.oracle.com/jp/developer/events/cloud-hangout-cafe/
https://ochacafe.connpass.com/