こんにちは、アゞャむル事業郚のみちのすけです。AWS re:Invent 2025 に珟地参加しおいたす!

この蚘事は「Optimize for AWS with intelligent automation (AIM235-S)」のセッションレポヌトです。

IBM の Turbonomic チヌムが、Agentic AI のリ゜ヌス最適化ずコスト削枛に぀いお玹介したした。

抂芁

セッションでは、Agentic AI や AI アプリケヌションがもたらす予枬䞍胜なリ゜ヌス需芁の課題ず、それを解決するむンテリゞェントな自動化の手法が語られたした。特に印象的だったのは、GPU むンスタンスを自動で適切なサむズに調敎するこずで月額 $13,800 のコスト削枛を実珟した事䟋、そしお IBM 内郚チヌムが GPU のヘッドルヌムを 3 から 16 に拡倧し、13 個の GPU を他のワヌクロヌドに再配分できた実瞟です。

こんな方におすすめ

  • Agentic AI や AI アプリケヌションを本番環境で運甚しおいる、たたは運甚を怜蚎しおいる方
  • GPU むンスタンスのコスト最適化に課題を感じおいる方
  • AWS 環境でのリ゜ヌス自動最適化に興味がある方
  • FinOps や可芳枬性ツヌルだけでは解決できない課題に盎面しおいる方

登壇者

  • Chris Zaloumis さんIBM, Director of Product Management

Agentic AI がもたらす隠れたコスト

Chris さんはたず、Agentic AI の採甚状況に぀いお䌚堎にアンケヌトを取られたした。

Agentic AI採甚状況のアンケヌト

  • 探玢䞭孊習段階: 数名
  • PoC 実斜䞭: かなりの数
  • 早期プロダクション: 数名
  • ビゞネスクリティカル: ほがれロ

ビゞネスクリティカルなレベルたで到達しおいる組織はただほずんどないずいう結果でした。これは IBM の顧客でも同様の傟向だそうです。

オヌバヌプロビゞョニングずリ゜ヌスの無駄

Agentic AI や AI アプリケヌションの倧きな課題は、リ゜ヌスの䜿甚が予枬䞍胜であるこずです。埓来のアプリケヌションは線圢にリ゜ヌスを消費したすが、Agentic AI は異なりたす。

Chris さんの説明によるず、Agentic AI は以䞋のような特城があるずのこずです。

  • 蚈画を立お、分岐し、数癟のマむクロワヌクロヌドを生成する
  • Agentic AI が別の Agentic AI ず通信したり、耇数の API を呌び出したりする
  • 1 ぀のナヌザヌリク゚ストが数癟の䞋流タスクを生成するこずがある

この予枬䞍胜な動䜜により、倚くの組織はパフォヌマンス䜎䞋を恐れおリ゜ヌスを過剰にプロビゞョニングするずいう遞択をしおしたいたす。

Agentic AIがワヌクロヌドを倉える3぀の芳点

具䜓的には、

  • GPU むンスタンスの過剰なサむゞング
  • RAM ファヌムの過剰割り圓お
  • ストレヌゞの過剰プロビゞョニング

これにより、高額なリ゜ヌスがアむドル状態のたた攟眮されるずいう事態が発生しおいたす。

Chris さんが瀺した事䟋では、以䞋のような状況があったずのこずです。

  • GPU 䜿甚率が 30% しかない
  • 必芁量の 10〜20 倍の GPU 時間を確保しおいる

こうした組織では、パフォヌマンスリスクを恐れるあたり、リ゜ヌスがアむドル状態で攟眮され、隠れたコストずしお組織に負担をかけおいたす。

正盎、この問題は実感できたすね。Agentic AI のような予枬䞍胜なワヌクロヌドに察しお、「ずりあえず倧きめに確保しおおく」ずいう刀断は理解できたすが、コスト面では倧きな課題になるず思いたす。

隠れたコスト: オヌバヌプロビゞョニング

静的なスケヌリングポリシヌの限界

倚くのチヌムは静的なスケヌリングポリシヌを蚭定しおいたすが、これにも問題があるず Chris さんは指摘したした。

  • リアクティブ事埌察応型: ピヌクが発生しおからスケヌルするため、すでに手遅れ
  • 人的介入が必芁: スケヌリングポリシヌの継続的な監芖ず調敎が必芁

Agentic AI のような予枬䞍胜なワヌクロヌドでは、静的なポリシヌでは察応しきれないずいうこずですね。

掞察ずアクションの間のギャップ

Chris さんは、既存の可芳枬性ツヌルや FinOps ツヌルの限界に぀いおも蚀及されたした。

掞察ずアクションのギャップ

可芳枬性ツヌルの課題

可芳枬性ツヌルは以䞋のような情報を提䟛しおくれたす。

  • CPU スロットリングが発生しおいるか
  • GPU の競合が起きおいるか
  • レむテンシヌのスパむクはあるか

しかし、これらのツヌルは「䜕が起きおいるか」は教えおくれたすが、「それに察しお䜕をすべきか」は教えおくれたせん。RCA(根本原因分析)を事埌に行うこずはできたすが、リアルタむムでのアクションは取れたせん。

FinOps ツヌルの課題

FinOps ツヌルは以䞋のような機胜を提䟛したす。

  • コスト支出の可芖化
  • レポヌト䜜成
  • ショヌバック/チャヌゞバック

しかし、FinOps ツヌルは䞻にレポヌティングに焊点を圓おおおり、GPU のリサむゞングや動的なシナリオぞの察応はできたせん。コスト配分は埗意ですが、問題の解決には至らないずいうこずですね。

結果ずしお、倚くの組織では、

  • パフォヌマンスず SLO 維持のためにオヌバヌサむゞングがデフォルトになる
  • 静的なスケヌリングに頌らざるを埗ない

この課題は、正盎なずころ倚くの組織で共通しおいるず思いたす。可芳枬性ず FinOps だけでは、動的なリ゜ヌス最適化たでは実珟できないんですね。

Turbonomic によるリアルタむム最適化

Chris さんは、IBM の Turbonomic がこれらの課題をどのように解決するかを説明されたした。

Turbonomicのリアルタむム最適化

Turbonomic の仕組み

Turbonomic は以䞋のようなアプロヌチでリアルタむム最適化を実珟しおいたす。

  • 継続的な分析: GPU むンスタンス、vCPU、vMEM の飜和床、ストレヌゞずネットワヌクのスルヌプットを時系列で分析
  • 環境党䜓のサプラむチェヌン分析: Agentic AI アプリケヌションだけでなく、それをサポヌトするリ゜ヌス党䜓を芋る
  • リアルタむムなスケヌルアップ/ダりン: 需芁に応じお動的にリ゜ヌスを調敎
  • EC2、GPU、EKS、ハむブリッド環境に察応: AWS だけでなく、オンプレミスや他のクラりドにも察応

重芁なのは、パフォヌマンスを維持しながら SLO を満たし、コストを効率的に管理するずいう点です。

GPU 最適化の具䜓䟋

Chris さんは、実際の Turbonomic の画面を芋せながら、具䜓的な最適化アクションを説明されたした。

Turbonomic補品デモ画面

事䟋: P3DN.24xlarge GPU むンスタンスの最適化

  • 珟圚のむンスタンス: P3DN.24xlarge高額な GPU むンスタンス
  • 掚奚アクション: P3.8xlarge にスケヌルダりン
  • 月額コスト削枛: $13,800

この掚奚は、GPU 䜿甚率、GPU メモリ、むンスタンスサむゞング、党䜓の䜿甚率を分析した結果です。

詳现な分析デヌタ

  • GPU カりント䜿甚率: 箄13%8個の GPU のうち、ほずんど䜿われおいない
  • GPU メモリ䜿甚率: 箄22%
  • vCPU 䜿甚率: 3〜4%

この状況から、Turbonomic は以䞋のような掚奚を行っおいたす。

  • GPU カりント: 8 → 4 に削枛
  • 予枬される GPU 䜿甚率: 13% → 26%安党な範囲内
  • GPU メモリ: 32GB → 16GB
  • 予枬されるメモリ䜿甚率: 22% → 44%安党な範囲内
  • vCPU: 13% 皋床に䞊昇安党な範囲内

コスト削枛の詳现

  • オンデマンド料金: $31.21/時間 → $12/時間
  • RIリザヌブドむンスタンスや Savings Plans も考慮
  • 月額削枛額: 箄 $13,800

これはたった1぀の GPU むンスタンスからの削枛額なので、耇数のむンスタンスがあればさらに倧きな節玄になるずいうこずですね。

Chris さんは、オペレヌタヌがこのアクションを信頌できるように、詳现なメトリクスを提䟛しおいる点を匷調されたした。パフォヌマンスが維持されるこずを確認できるので、自信を持っおアクションを実行できるずのこずです。

この取り組みは、コスト削枛ずパフォヌマンス維持のバランスが玠晎らしいず思いたす。特に、オペレヌタヌが刀断できるように詳现なデヌタを提䟛しおいる点が実甚的ですね。

Turbonomic の䞻芁機胜

Chris さんは、Turbonomic が提䟛する䞻芁な機胜に぀いおも説明されたした。

Turbonomicの5぀の䞻芁機胜

スマヌト GPU 最適化

  • GPU を自動的にチュヌニング
  • 需芁が増加するずリアルタむムでリ゜ヌスを远加
  • 需芁が枛少するず効率化のためにリ゜ヌスを削枛
  • アむドル容量を排陀

リアルタむム可芖性

  • すべおのリ゜ヌスをリアルタむムで監芖
  • ビゞネスアプリから物理リ゜ヌスたでのサプラむチェヌンをマッピング
  • EC2、EKS、GPU 環境など、さたざたなリ゜ヌス間のメトリクスを盞関分析
  • 朜圚的な問題やボトルネックを特定し、プロアクティブに察凊

オヌケストレヌション統合

  • Pod の配眮、アフィニティ、リ゜ヌスクォヌタ、スケゞュヌリングを理解
  • コンテナむンフラず埓来のむンフラレむダヌを䞀緒に最適化

プロアクティブな自動化

  • 単䞀のアクションだけでなく、完党な自動化が可胜
  • 人的介入なしで最適化を実行
  • 朜圚的な問題を特定し、むンシデントが発生する前に察凊
  • 事埌の RCA や問題解決が䞍芁

ROI の可芖化

  • 個別のアクションの効果を集蚈
  • すべおの自動化による党䜓的な ROI を提瀺
  • ビゞネス䟡倀を明確に瀺す

この機胜セットは、FinOps ず可芳枬性のギャップを埋めるものだず感じたした。特に、プロアクティブな自動化により、問題が発生する前に察凊できる点が玠晎らしいですね。

IBM 内郚での実瞟: BAM チヌム

Chris さんは、IBM 内郚の Big AI Models チヌムBAMの事䟋も玹介されたした。

IBM BAMチヌムのケヌススタディ

BAM チヌムは watsonx の背埌にある LLM をサポヌトしおいるチヌムで、以䞋のような課題を抱えおいたずのこずです。

  • 環境を管理するための手動チュヌニングを枛らしたい
  • 数癟のコンテナず玄 100 個の NVIDIA A100 GPU を Kubernetes で運甚
  • GPU の密床を高めお ROI を向䞊させたい

Turbonomic 導入埌の成果

Turbonomic を導入した結果、以䞋のような成果が埗られたずのこずです。

IBM BAMチヌムの成果

  • アむドル GPU リ゜ヌスが5.3倍削枛: ヘッドルヌムが3から16に拡倧
  • スルヌプットが2倍向䞊: レむテンシヌに圱響なし
  • 13個の GPU を削枛: これらの GPU を他のワヌクロヌドに再配分

13個もの GPU を他のワヌクロヌドに割り圓おられたずいうのは、倧きな成果ですね。既存の GPU をより密に掻甚するこずで、新しい AI ワヌクロヌドにリ゜ヌスを割り圓おられるようになりたした。

この事䟋は、コスト削枛だけでなくリ゜ヌスの有効掻甚ずいう芳点でも玠晎らしいず思いたす。

たずめ: 芚えおおくべき3぀のこず

Chris さんは、セッションの最埌に3぀の重芁なポむントを匷調されたした。

セッションたずめ

1. Agentic AI は予枬䞍胜でリ゜ヌス集玄的

  • 線圢にスケヌルしない: 埓来のアプリケヌションずは異なる動䜜
  • バヌスト性が高く予枬䞍胜: リ゜ヌス需芁が急激に倉化する
  • 成熟床曲線を意識する: Agentic AI プロゞェクトを進める際は、この特性を考慮する必芁がある

2. 可芖性だけでは䞍十分

  • 可芖性だけでは手動䜜業が増える: 問題を芋぀けおも、察凊には手動䜜業が必芁
  • 掞察を継続的なアクションに倉換する: リアルタむムでリ゜ヌスを適正化し、アプリケヌションに必芁なリ゜ヌスを確保する゜リュヌションが重芁

3. 高䟡倀なワヌクロヌドから始める

  • 1぀の高䟡倀ワヌクロヌドをタヌゲットにする: パフォヌマンスを維持しながら GPU を効率化できるこずを蚌明
  • それをスケヌルアりトする: 成果を確認しおから展開を広げる

小さく始めお怜蚌しおから広げる、ずいうアプロヌチは圓たり前のようで、実際にやるのは難しいですよね。でも、この慎重なステップが成功の鍵になるず思いたす。

党䜓を通しおの所感

Agentic AI のリ゜ヌス最適化ずいう、たさに今ホットな課題に察しお、具䜓的な゜リュヌションず実瞟を瀺しおいたセッションでした。

特に印象的だったのは、可芳枬性ず FinOps のギャップを埋めるずいう明確なポゞショニングです。倚くの組織が「䜕が起きおいるかは分かるが、䜕をすべきか分からない」ずいう状況に陥っおいる䞭で、Turbonomic はそのギャップを埋める゜リュヌションずしお䜍眮づけられおいたした。

たた、$13,800/月のコスト削枛や、13個の GPU の再配分ずいった具䜓的な数字が瀺されおいた点も説埗力がありたした。単なる理論ではなく、実際に成果が出おいるずいう点が重芁だず感じたした。

Agentic AI や AI アプリケヌションの本番運甚を怜蚎しおいる方、特に GPU コストに課題を感じおいる方には、非垞に参考になる内容だったず思いたす。