DX開発事業部の前野佑宜です。
AWS re:Invent 2025の3日目に、Expoにて開催された、Samsung社のセッションに参加してまいりました。本記事はそのセッションレポートです。
Samsung Electronics の Kyotack Tylor Kim 氏が、1000以上のEKSクラスターという大規模なインフラを、Cast AIと独自のAgentic AIでどのように自動化・最適化し、30%以上のコスト削減を実現したかが紹介されていました。本記事では同社が直面した課題と、それをどのように乗り越えてきたのか、について整理しています。
セッション概要

Samsungが直面した大規模運用の3つの課題

Samsungが抱えていた主な課題は、複雑さとコスト効率の両立でした。
複雑な大規模Kubernetes運用
1000以上のEKSクラスター、50以上のアプリケーション、数万台のVMという巨大な運用規模かつ、AWS、Google Cloud、Azure、Samsung Cloudなどマルチクラウド環境での運用を行なっており、複雑かつ大規模なワークロードを運用していました。
CPUとGPUワークロードの混在
トレーニングチームは単一クラスターでのシンプル運用を、推論チームはコスト効率の良いGPUを求めるなど、チーム間で異なる要件をいかに統一インフラで提供するかが課題、と言われている
標準的なコスト削減の限界
RI (Reserved Instances) や Savings Plansに加え、Spotインスタンスを効率的に活用し、AWSへのコミットメントなしに更なるコスト削減を追求する必要性があると言われている
解決策: Agentic AIとCast AIの統合

上記の課題に対してSamsungは、インフラ管理、セキュリティ、FinOpsなど多岐にわたる独自の「Agentic AI」プロジェクトを進め、その核として Cast AI を統合しました。
AIによるオートメーション
変更管理やFinOpsなどのAI Agentが協調し、その上にスーパーバイザー Agentが稼働。クラウドをリアルタイムで継続的に最適化。
Cast AIの統合
インテリジェントな自動化機能により、ワークロードを高速かつ自動的にスケールし、リアルタイムで適切なサイズに調整(オーバープロビジョニング防止)。
ビンパッキング最適化
ワークロードを物理リソースに効率的に配置するこの手法だけで、PoCにおいて30%以上のコスト削減効果を確認。Spotインスタンスと組み合わせることで最大の効果を狙う
成果

ソリューション導入の結果、Samsungは以下の具体的な成果を達成しました。
大幅なコスト削減
AI自動化、スマートなビンパッキング、Spotインスタンス活用を組み合わせ、Kubernetes環境全体で実質的な節約が可能となりました。
リアルタイム最適化により、リソースを継続的に適切なサイズに調整し、オーバープロビジョニングとアンダープロビジョニングを排除できました。
運用オーバーヘッドの解消
AI主導の自動化によりインフラ管理が効率化され、スケーリング、プロビジョニング、最適化のための手動作業が削減されました。
エンジニアは、削減された時間で他のAI Agentの作成など、より価値のあるタスクに集中できるようになりました。
将来の展望

Kim氏は、このプロジェクトの最終的な目標は「完全に自律的なクラウド運用」の実現にあると語りました。具体的には、以下のポイントです。
AIによる自律性の追求
ミッションクリティカルなシステムを24時間365日人間が集中してモニタリングするのは不可能であり、Cast AIを導入することで人間の介入を最小限に抑え、自律的な運用を目指しているとのことでした。
統一最適化の拡張
CPUとGPUワークロードの統合を進め、AIによる自動化を拡張。マルチクラウド環境での障害発生時のフェイルオーバー自動化など、複雑なオーケストレーションをシンプルに保ち、信頼性を高めることを目指しています。
まとめ
ビンパッキング最適化だけで 30% のコスト削減ができたという点に驚きました。Spot インスタンスと組み合わせれば、さらに大きな効果が期待できるとのことなので、Cast AI のような最適化ツールの導入を検討する価値は十分にあると思いました。また、AI Agent による自律的な運用は、まさに次世代のインフラ運用の形だと感じました。運用チームの負担を減らしながら、コストも削減できるというのは理想的ですね。