はじめに

エンタープライズクラウド事業部の磯部です。
10/13~10/16にラスベガスにかけて開催された、Oracle AI World 2025に参加してきました。

本ブログでは、10/15に行われた「AI/HPC Performance: Best Practices for Leveraging Managed Lustre on OCI」のセッション内容について、ご紹介します。

概要

本セッションでは、Oracle Cloud Infrastructure (OCI) のマネージドサービスであるLustreを活用し、AI/ML(人工知能/機械学習)やハイパフォーマンスコンピューティング(HPC)ワークロードのパフォーマンスを最大化するためのベストプラクティスを紹介していました。

公式サイトから引用

Maximize the performance and efficiency of your high-performance computing, AI, and large-scale data workloads by mastering Oracle Cloud Infrastructure’s Managed Lustre service. This session focuses on best practices for consuming and optimizing this powerful parallel file system service, freeing you from the complexities of underlying infrastructure management.

(DeepL翻訳)

Oracle Cloud InfrastructureのマネージドLustreサービスを習得し、高性能コンピューティング、AI、大規模データワークロードのパフォーマンスと効率を最大化しましょう。本セッションでは、この強力な並列ファイルシステムサービスの活用と最適化に関するベストプラクティスに焦点を当て、基盤インフラ管理の複雑さから解放されます。

Lustre(ラスター)とは

Lustre(ラスター)とは高性能なファイルストレージサービスのことだそうです。

Lustreは20年以上にわたり利用されており、元々は巨大なスーパーコンピュータがデータ読み込みを待つことのないよう、非常に速いパフォーマンスを提供することが目的でした。

AI/ML(人工知能/機械学習)ワークロード、特にGPUを用いたトレーニングを行う際、迅速にデータをGPUに供給することが不可欠です

Lustreは、このデータ供給のボトルネックを解消する役割を担います。

そのため、AI/MLのトレーニングや推論、HPC、ビッグデータ処理、Kubernetesでオーケストレーションされたワークロードなど、高い処理能力が求められる分野で主に使用されます

OCI File Storage with Lustreの利点

オンプレミスでLustreを管理するには専門知識と専用のインフラが必要ですが、OCIではフルマネージドサービスとして提供しています

  • 容易な管理:顧客はLustreのエキスパートである必要がなく、ファイルシステムの作成、インフラのプロビジョニング、セキュリティパッチの管理などが自動化されます。データサイエンティストがインフラについて気にせずデータ処理に集中できます
  • パフォーマンスとスケーラビリティ:大規模 LLM(大規模言語モデル)の トレーニング実行では、合計が最大 20 テラビット/秒 (Tbps) という速度で、 25,000 個の GPU にデータが供給した実績があります。また、最大容量はペタバイトまで拡張することが可能です
  • セキュリティと統合:データは暗号化され(保管時)、データ転送中の暗号化もサポートしています。OCIネイティブサービスとしてVCNやIAMポリシーと統合されており、パフォーマンス監視のためのメトリクスやアラーム機能も利用可能です

性能を引き出すためのベストプラクティス

 Lustreの性能を最大限に引き出すための、具体的な推奨事項は以下のように説明されていました。

  • 物理的近接性の確保:LustreをGPUクラスターと同じ配置グループ (Cluster Placement Group) に作成することが推奨されます。これにより、物理的距離を最小限にし、レイテンシを回避できます
  • ネットワーキングの最適化:低レイテンシと最も効率的なスケーリングのために、LustreとGPUクラスターを同じ可用性ドメイン専用サブネットに配置することが推奨されます。※Lustreは、選択した容量に応じて最大60のIPアドレスを必要とするため、サブネットの適切なサイジングが重要です
  • マウントオプションの推奨:ワークロードが異なる値を必要としない限り、ファイルシステムをマウントする際にクライアントオプションを指定しないことが推奨されます。デフォルト値が、効率的なクライアント/サーバー間相互作用と、データ転送中の暗号化を保証してくれます。

Object Storageとのシームレスなデータ連携

OCI環境では、Object Storageが安価でエクサバイト級にスケーラブルなデータレイクとして機能します

  • データのライフサイクル:元データは安価なObject Storageに保存され、トレーニング時には必要なデータのみをLustreにロードします。トレーニング完了後、モデルや結果をObject Storageにコピーしてオフロードします
  • 双方向オブジェクトコピー機能:LustreとObject Storage間のデータコピー(インポート/エクスポート)を自動化する新機能が導入されました。これにより、手動でのコピーやツールを使わずに、APIコールやボタンクリックでシームレスな操作が可能です

まとめ

従来はオンプレミスで必要だった専門家の技術がなくてもLustreを利用できるようになった点は、導入時間や運用コストを大幅に下げてくれているなと感じました。

自分はLustreを使用したことがなく、オンプレミスにも触れたことがないため、知識がなくてもすぐに使うことが出来るというのはとても嬉しいです!

これを機に、OCIのマネージドサービスLustreを自分で触って理解してみたいと思いました。

最後までお読みいただきありがとうございました。

別のセッションも引き続き投稿しますので、ご覧いただけると嬉しいです。