クラウドインテグレーション事業部の片山です。
2025年10月13日〜16日(現地時間)にラスベガスで開催されたイベント、Oracle AI World 2025に現地参加してきました。

今回は前回に引き続き後追いでのレポートとして「A Peek Inside Zettascale OCI GPU Clusters」というセッションのレポートをお届けします。
前編ではOCI Zettascale Clusterのネットワーク部分の基礎となるRDMA技術や、それによるスケールと性能の両立についてご紹介しました。

セッション概要

本セッションでは、OracleVice PresidentDistinguished EngineerJag BrarNetworking ArchitectDavid Beckerが登壇しました。セッションではOCIがどのようにしてAI時代の要求に応えるZettascale Clusterを構築したのか、特に、ミッションクリティカルなアプリケーションに求められる低遅延・高スループットをどの様にして実現したのかが解説されました。

本記事は後編のため割愛していますが、背景や前談:そもそもZettascale Clusterとは?については前編に記載していますのでぜひそちらもご覧ください。

セッション内容:OCIの高性能クラスターネットワークを支える技術革新

前編に引き続き、OCI Zettascale Clusterを支えるネットワークについて、セッションで語られた内容をご紹介していきます。

AIメガファクトリーを可能にするネットワークの進化

技術の爆発的な拡大およびそれに付随する要求の高度化に伴い、前述の高性能ネットワークの実現までにOCIのネットワークトポロジーは以下の様に進化してきたとのことです。

トポロジーの進化:

◦ 初期HPC:2層構造。最大約1,000ノード規模。


◦ AI革命期:3層構造。最大128,000ノード/ポート規模までスケールアップ。


◦ AIメガファクトリー:現在、マルチプレーン/ディスジョイントファブリックを採用。
マルチプレーン(高可用性): 最新のNIC800ギガビットNICなど)は、複数のスイッチ(通常4つ)に接続する能力を持ち、一つのリンクがダウンしても他の接続で処理を継続することで、ジョブの中断を防ぎ、信頼性を劇的に向上させています。この接続にはシャッフルケーブルなどの物理層での革新的なケーブル設計が活用されています。

 

ワークロード特性に応じたQoSと輻輳制御

OCIクラスターネットワークは、単一のファブリック上で異なるワークロードの性能要求を満たすために、高度なQoSQuality of Service)と輻輳制御を実装しています。

専用のQoSキュー:

HPCワークロード 最低遅延を優先するため、輻輳時にパケットマーキングを早期に開始し、すぐに100%マーキングに移行して早めにブレーキをかける。
AIワークロード: 超高スループットを優先し、多少の遅延の揺らぎは許容するため、マーキングを遅く開始し、徐々に増加させる。
Oracle Databaseワークロード: 複数のサブワークロードが含まれ、遅延とスループットの異なるトレードオフを持つため、専用のキューが割り当てられる。


輻輳制御技術: 従来のTCPベースのネットワークで一般的に使用されるフローベースの転送方法による輻輳を回避するため、新しいアルゴリズム(例:DCQCNや遅延ベースの制御)を開発・導入。
また、Collective Load Balancingにより、特定のスイッチにトラフィックが集中するのを防ぎ、ジョブを意図的に異なるスイッチに分散させます。

 

おわりに

本セッションでは、OCIがAI時代を見据え、Zettascale Clusterとそれを支える高性能ネットワークインフラストラクチャに、いかに深く、多岐にわたる革新を続けているかが明確になりました。

特に、RockyベースのRDMAを採用し、マルチテナンシーやセキュリティ隔離の課題を克服した点、そして、単一障害点による大規模なトレーニングジョブの中断を防ぐためのマルチプレーンファブリックやシャッフルケーブルといった物理層からの徹底的な高可用性への追求は、AI開発をはじめとするミッションクリティカルなワークロードの実行基盤としてOCIが強力な選択肢であることを示しています。

OCIのクラスターネットワークは、HPC、データベース、そしてAIという異なる性能要求を持つマルチワークロードを単一の専用ファブリック上で効率的に共存させるというユニークなアプローチを取っています。これは、OCIが提供するコンピューティングリソースの柔軟性やコストパフォーマンスの高さと相まって、大規模なインフラストラクチャの移行やモダナイゼーションを検討しているお客様にとって、非常に有力な選択肢となるのではないかと思いました。今後もOCIGPUクラスターおよびZettascaleインフラの動向に注目し、その進化がAI業界にもたらす影響を追っていきたいと思います。

最後までお読みいただきありがとうございました。
引き続きセッションレポート等のアップを予定していますので、興味があればぜひまた見て来ください。