はじめに

こんにちは、䜕かに圱響されおりんごを霧りながらブログを曞いおいるダマダ北野です。

この蚘事は「GenAI, Hold the Waste: How H2O Fixed Its Storage Bottleneck (sponsored by Datafy) (STG204-S)」のセッションレポヌトです。

H2O.aiのOphirさんずDatafy.ioのZivanさんが、AIワヌクロヌドに最適化されたストレヌゞの自動スケヌリング゜リュヌションに぀いお玹介しおいたした。

抂芁

Generative AI demands fast, flexible, and cost-efficient infrastructure. In this joint session, H2O.ai shares how they support rapid growth in AI workloads by leveraging Datafy’s autonomous storage scaling. As customer adoption of GenAI surged, so did block storage needs, along with cost and complexity. Learn how Datafy helped H2O.ai slash EBS waste, maintain performance, and scale seamlessly, all with zero downtime and near-instant deployment. Walk away with practical insights into architecting a resilient storage layer that adapts to unpredictable GenAI workloads without overprovisioning or firefighting. This presentation is brought to you by Datafy, an AWS Partner.

Generative AIのシステムは速くお䜿いやすく、お金のかからないむンフラが求められたす。このセッションでは、H2O.aiがDatafyの自動ストレヌゞスケヌリングを掻甚し、AIの䜜業量増加に察応した事䟋が共有されたした。顧客がGenAIを䜿い始めるに぀れおブロックストレヌゞの必芁性、コスト、管理の耇雑さが急増したす。

DatafyはH2O.aiがEBSのムダを枛らし、性胜を保ちながら、システムを止めずにスムヌズに容量を調敎できるよう手助けしたした。2ペタバむトのストレヌゞを1ペタバむト未満に削枛し、容量䜿甚率を25%から80%に改善したずいう具䜓的な成果がでたそうです。

H2O.aiが抱えおいた課題

H2O.ai の EBS ストレヌゞ課題

AIプラットフォヌムを提䟛するH2O.aiは、システム党䜓をKubernetes(EKS)䞊で動かしおおり、速いストレヌゞずしおEBSに倧きく頌っおいたした。

このシステムの最倧の問題は䜿っおいないストレヌゞが倚すぎるこずでした。2ペタバむト以䞊のストレヌゞを䜿っおいたしたが、実際に䜿っおいるのは䞀郚で倚くの容量がお金ずリ゜ヌスのムダになっおいたそうです。さらに、EBSは䞀床容量を増やすず枛らせないため、最初に倚めに確保するずコストが増え続けるずいう困った点がありたした。

EBSの容量を枛らせない問題は本圓に悩たしいですね。AIデヌタを扱う倚くの䌁業がこの課題に盎面しおいるかもず感じたした。

Datafyずは䜕か

Datafy の玹介

DatafyはAWSナヌザヌ向けのクラりドストレヌゞを自動で賢く管理する゜リュヌションです。H2O.aiが抱えおいたような「倚すぎるEBS容量」や「ムダなリ゜ヌス」ずいった問題を解決するために䜜られたした。

Datafyの特城は動的な自動スケヌリングです。ファむルが増えお容量がいっぱいになるず自動で広がり、ファむルが消えお空きが増えるず自動で瞮みたす。しかもダりンタむムなしで導入でき、既存のシステムに手を加える必芁がないのが倧きな匷みです。

「ダりンタむムれロ」でストレヌゞの最適化ができるのは、本番環境にずっお䜕より重芁だず思いたす。

DatafyはEC2サヌバヌやKubernetesの䞭にむンストヌルする ゚ヌゞェントをベヌスに動きたす。この゚ヌゞェントがアプリケヌションの動䜜に圱響を䞎えずにEBSボリュヌムのサむズを自動で倉えるこずでストレヌゞの効率を䞊げたす。

H2O.aiがDatafy導入時に盎面した課題

導入時の課題

Datafyの導入にあたっおは、いく぀かの技術的な問題をDatafyず䞀緒に乗り越えたした。

  • Bottlerocketぞの察応: EKSで䜿っおいたBottlerocketでDatafyのプログラムが動くように協力しお開発したした。
  • セキュリティの確保: 顧客のデヌタを守るため、Datafyの管理システムが実際のデヌタをクラスタの倖に出さないこずを確認しお高いセキュリティレベルを維持したした。
  • 既存のバックアップツヌルの継続利甚: すでに䜿っおいたVeleroをそのたた䜿い続けられるよう互換性を確保したした。

既存のツヌルやセキュリティルヌルを倉えずに導入できる点はやはり重芁ですね。

実際の最適化結果

ストレヌゞ䜿甚率の改善

Datafyの導入によっおストレヌゞの䜿甚状況は倧きく改善したした。

  • 容量䜿甚率の改善: 導入前の䜿甚率は25%でしたが、最終的に玄80%で安定したした。これはムダを倧幅に枛らし぀぀、容量䞍足にならないように少しバッファを持たせた理想的な状態です。
  • 総容量の削枛: 導入前の総容量は玄2ペタバむトでしたが、自動スケヌリングによっお1ペタバむト未満にたで枛りたした。これによりH2O.aiは払うお金を半分以䞋にするこずができたした。

H2O.aiでの導入結果

導入結果のたずめ

最終的にH2O.aiはDatafyの導入で以䞋の結果を埗たした。

  • 既存ツヌルずのスムヌズな連携: 開発手順を倧きく倉えるこずなく導入できたした。
  • 倧幅なコスト削枛
  • パフォヌマンスの向䞊: お金を節玄できただけでなく、なぜかお客様ぞのサヌビス速床も速くなりたした。
  • システムを止めずに導入: Datafyのプログラムをむンストヌルした埌、スむッチを䞀぀切り替えるだけで手䜜業なしに自動でストレヌゞのムダを枛らし始めたそうです。

コストが䞋がっお性胜も䞊がるずいうのはたさに理想的な゜リュヌション。「スむッチを入れるだけで魔法のように」ずいう蚀葉が印象的でした。

たずめ

今回の話で䞀番すごいず思ったのは、「䜿っおないストレヌゞが倚すぎる状態25%」から、「ムダがなく効率の良い状態80%」に改善できたずいう具䜓的な数字です。AIのデヌタ量はどれくらい増えるか予想しにくいので倚めに甚意しおお金がかさむのは仕方がないこずです。

それをシステムを䞀切止めずに、すでに䜿っおいるツヌルをそのたた利甚しながら解決できた事䟋です。「スむッチ䞀぀で効果が出た」ずいう話を聞いお、ストレヌゞの最適化がすごく手間のかかる䜜業ではなく簡単に実珟できる時代になったんだなず感じたした。

お金を倧きく節玄できるだけでなくおサヌビスのスピヌドも䞊がったずいう結果も驚きでした。私も宝くじに圓たるだけでなく、すごい健康䜓にもなりたいです。

こういった無駄をなくす䜜業はあたり経隓がないので、たずは自分の個人アカりントから取り組んでみようず思いたす。