クラウドインテグレーション事業部の片山です。
2025年10月13日〜16日(現地時間)にラスベガスで開催されたイベント、Oracle AI World 2025に現地参加してきました。
イベント中はラスベガス寒いなあと思っていましたが、日本もかなり(急に)冷え込んできましたね。

今回は「A Peek Inside Zettascale OCI GPU Clusters」というセッションのレポートをお届けします。

なお、今回はボリュームが多めになってしまったので、前後編に分けての投稿とします。長くなりますが良ければ最後までお付き合いください。

 

セッション概要

近年、AIメガファクトリーと呼ばれる超大規模なGPUクラスターの需要が急増していますこれは、HPC(ハイパフォーマンスコンピューティング)で扱われていたメガワット級の規模を超え、将来的に数百メガワット、あるいはギガワット級の電力消費を伴う巨大なインフラプロジェクトとのことです

このような極限のスケールとパフォーマンスが要求される環境において、OCIZettascale Clusterというかたちで、その実現に向けたインフラストラクチャを構築・サービス提供しています

本セッションでは、OracleVice PresidentDistinguished EngineerJag BrarNetworking ArchitectDavid Beckerが登壇しました。セッションではOCIがどのようにしてAI時代の要求に応えるZettascale Clusterを構築したのか、特に、ミッションクリティカルなアプリケーションに求められる低遅延・高スループットをどの様にして実現したのかが解説されました。

前談:Zettascale Clusterとは?

セッション内容の紹介に先んじて、そもそもZettascale Clusterとは?と疑問に思う方も要ると思うので、まとめてみました。

Zettascale」:あまり馴染みのない言葉ですが、これは主にコンピュータの計算能力を示す言葉です。データ容量の単位である「ゼタ」(テラペタエクサの次、1ゼタバイト=10億テラバイト)に基づいた超巨大な計算能力(あるいはそういった計算能力を有するシステム)を指す言葉だそうです。

つまり、Zettascale Clusterとは前述の通り、AIワークロード等の基盤として利用可能な超大規模スーパーコンピュータクラスターということですね。

 

セッション内容:OCIの高性能クラスターネットワークを支える技術革新

OCIRDMAクラスターネットワークは、HPCワークロード向けに公開されて以来、継続的に改良され、現在では大規模言語モデル(LLMs)を扱うAI/GenAIワークロードにも対応しています。このネットワークは、HPCOracle DatabaseAI/GenAI3つの異なるワークロードクラスをサポートする汎用的な高性能ネットワークです。

セッションでは、OCI Zettascale Clusterを支えるネットワークについて、いくつかのポイントに分けて詳細が説明されました。

Rocky採用とOCI独自のセキュリティ/マルチテナンシー

RDMAは本来、単一ワークロード向けに設計されてきた技術ですが、クラウドの基本であるマルチテナンシーを実現するために、OCIRockyRoCE:RDMA over Converged Ethernet)を採用しました。

強固な分離(Isolation): OCIは、Rockyを活用することで、セキュリティ、パフォーマンス、名前空間の強力な分離を達成しています。
証明書ベースの認証: 顧客Aのトラフィックが顧客Bのパフォーマンスに影響を与えないよう、OCIは各顧客に専用の証明書を付与し、これに基づきテナンシーを識別・隔離する独自のセキュリティ隔離方法を開発しました(これは顧客からは見えない仕組みだそうです)。

 

スケールと性能の両立

高性能ネットワークは一般的に規模が制約されますが、OCIは巨大なスケール(クラウドの特性)と低遅延性(HPCの要求)を両立させています。

距離に基づくネットワークユニット: 顧客のインスタンスを、低遅延を実現できる「距離で定義されたネットワークユニット」内に配置するための適切な配置ロジックと制御プレーン要素を構築。


性能評価(第三者検証): 2022年のSIG Metricsで発表された論文では、他クラウドやスーパーコンピューターと比較し、OCI最高のスループット2番目に低いレイテンシを達成していることが示されました(図中赤い線がOCI)。

 

おわりに

本記事では、OCI Zettascale ClusterがどのようにしてAI時代の超高性能要求に応えるインフラストラクチャを構築しているのかについて、その基礎となるRDMA技術やOCI独自のセキュリティ/マルチテナンシーの実現、そして巨大なスケールと性能の両立に焦点を当ててご紹介しました

後編では、AIメガファクトリーを可能にするためのネットワークトポロジーの具体的な進化や、異なるワークロードを単一ファブリック上で共存させるための高度なQoSおよび輻輳制御技術について、さらに深掘りして解説します。ぜひ後編もご覧ください。