はじめに
エンタープライズクラウド事業部の磯部です。
Oracle AI World 2025に現地参加しています。
10/14に「AMD + OCI = Real Results Running AI Clusters for GPU Workloads in the Cloud」のセッションに参加しましたので、内容を紹介します。
概要
本セッションの登壇者は、OracleのAI、ML、OCIに注力するJeff Allen氏、AMDのデータセンターGPUライン「Instinct」を担当するBinh Chu氏、および両社の共通顧客であるSeekr社のBen Faircloth氏です。
データセンターGPU市場において、AIハードウェア構築に焦点を当てて説明をされていました。
公式サイトから引用
The scale of AI inference is growing quickly. With a larger VRAM footprint for memory-hungry workloads and a cost-effective delivery model through OCI, customers are seeing the benefits of AMD+OCI. In this session, learn how AMD Instinct GPUs combine with OCI’s high-performance networking to deliver performance and efficiency for today’s AI workloads. We’ll give a real-world view of the steps to building and operating AI clusters in OCI, and Seekr will share their experience migrating AI workloads from on-premises to OCI. We’ll cover how to achieve lower latency, higher throughput, and better cost efficiency. Regardless of where you are in your AI journey, this session will give you a clear roadmap to modernizing your AI infrastructure.
(DeepL翻訳)
AI推論の規模は急速に拡大しています。メモリを大量に消費するワークロード向けのより大きなVRAMフットプリントと、OCIを通じたコスト効率の高い提供モデルにより、お客様はAMD+OCIのメリットを実感しています。本セッションでは、AMD Instinct GPUがOCIの高性能ネットワークと組み合わさることで、今日のAIワークロードにパフォーマンスと効率性をもたらす仕組みを学びます。OCI上でのAIクラスター構築・運用手順を実例に基づき解説し、Seekr社がオンプレミスからOCIへのAIワークロード移行で得た知見を共有します。低遅延・高スループット・コスト効率の実現手法を網羅。AI導入の進捗段階に関わらず、AIインフラの近代化に向けた明確なロードマップを提供します。
AMDとは
そもそもAMDとは、パソコンの頭脳であるCPUや、グラフィック処理装置(GPU)などを開発・製造するアメリカの半導体メーカーのことだそうです。
パソコンに詳しい方であれば、AMDのRyzenシリーズはご存じの方もいるでしょうか。
ハードウェア×AIというイメージがなかったため、AIを取り入れているというのは驚きでした。
実際にどのようにAMDとOCIのAI技術を組み合わせているのかを下記でご紹介します。
AIの導入
OCIは、クラウドサービス(インスタンスなど)の基盤として、AMDのプロセッサやGPUを採用しています。
2018年にOCIがAMD CPUを導入し、現在はAMDのCPU、DPU、GPUのすべてを採用しています。
AMDは、市場のトレンドが推論タスク(モデルを実際に使って新しいデータから予測や判断を行うこと)だということを捉え、メモリや性能を重視した製品を市場に投入しました。
- 現行世代のMI300xは、市場のどのGPUよりも140%多い192 GBのメモリを搭載していた。次世代のMI355xでは、メモリが288 GBに増加し、演算コア(マトリックスコア)とクロック速度が倍増。これにより、消費電力を倍増させることなく、より少ないワット数でより多くの演算能力を顧客に提供。
- 顧客がInstinct GPUにワークロードを移行しやすくするため、ソフトウェア最適化に積極的に投資した。主要なAIモデルや大規模言語モデル(LLM)の多くは、AMDのソフトウェアスタック上で動作し、最小限のコード変更で移行が可能となった。
- エンドユーザーは、200万以上のHugging Faceモデルを、Instinct GPU上ですぐに実行できるようになり、現在は世界のAI企業の70%がInstinct上でHugging Faceモデルが実行されている。
今後の取り組み
今後、AMDとOCIはどのような取り組みを考え、市場に投入していくのかについて説明がありました。
- Oracleは、2026年までに5万台の新しいAMD GPUをOCI内に展開すると発表。
- OCIは、最大約131,000台のAMD GPUを実行できるZettaクラスターを現在構築中である。
- 2026年には、次世代のEpic CPU(Venice)、次世代のMI GPU(MI455x)、および次世代のPensando DPU(Cocopah)で構成されるHeliosアーキテクチャが、Oracleとの強化された戦略的パートナーシップのもとで展開される予定。
おわりに
以上、「AMD + OCI = Real Results Running AI Clusters for GPU Workloads in the Cloud」のセッション内容についてご紹介しました。
当時の市場では十分なメモリ、性能でも、市場競争によりさらに高いスペックへと、AIを取り入れることで実現していました。
2026年はさらに進化した製品が投入されるということで、AIの無限の可能性をこのセッションで感じました。
最後までお読みいただきありがとうございました。
明日のセッション内容も投稿しますので、ぜひご覧ください!