目次

前編

  • はじめに
    • LLM時代のクラウドは何が変わったのか
  • なぜLLMはCPUではなくGPUなのか
    • Transformerは巨大な行列計算
    • GPUの並列アーキテクチャ
    • LLM推論の特徴
  • LLM爆発がGPUの重要性を加速させた
    • 推論リクエストの爆発
    • GPU中心インフラの誕生
  • GPUの供給・価格問題
    • GPUは需給が逼迫しやすい
    • GPU価格の高騰
    • CUDAエコシステム依存
  • 推論コストの現実
    • LLMは計算コストが高い
    • 重要なのは $/token
    • GPUは推論でも有力だが最適とは限らない

後編

  • ハイパースケーラーの垂直統合
    • 自社チップの流れ
    • なぜチップを自社開発するのか
    • AI時代のクラウド競争
  • AWS独自チップの意味
    • Inferentia
    • Trainium
    • GPUとの違い
  • 実務ではどう考えるべきか
    • GPUだけでは最適化しにくい場面が増えている
    • ワークロードごとの最適化
    • 設計に求められる視点
  • まとめ
    • 最後に

はじめに

LLM時代のクラウドは何が変わったのか

ChatGPT登場以降、生成AIは急速に普及し様々なアプリケーションが大規模言語モデル(LLM)を利用するようになっていき、その結果としてクラウドインフラの中心は従来のCPUベースのワークロードからGPUを中心としたAI計算基盤へと大きくシフトしようとしています。

LLMの学習推論処理は巨大な行列演算と高い並列性を持つ計算が中心となるため、従来のCPUよりもGPUのアーキテクチャと非常に相性が良いワークロードとなっており、現在のAIインフラはGPUを中心に設計されることが一般的になっています。

しかし、このGPU中心の構造は新たな課題を生んでいます。

  • 爆発的な需要によるGPUの供給不足
  • それに伴うGPU価格の高騰
  • 推論処理におけるコストの増大

そしてAIサービスが広がるにつれてクラウド事業者にとって重要になるのは、必要なレイテンシーやスループットを満たしながら、推論コストをどこまで下げられるか という点です。

このような背景の中で、クラウド事業者はGPUに完全に依存するのではなくAIワークロードに最適化された専用のチップ開発を進めています。
こうした動きはLLMブーム以前から進められてきたものですが、生成AIの急拡大によってその重要性はさらに高まっています。

そしてその代表例が、Amazon Web Services(AWS)が開発したTrainium と Inferentia です。

本記事では

  • なぜLLMはGPUで動くのか
  • なぜGPUだけでは限界があるのか
  • なぜAWSは独自チップを開発したのか
  • 現場で求められる設計視点の変化

と言う流れを通して、LLM時代のクラウドインフラ戦略を整理していきます!

なぜLLMはCPUではなくGPUなのか

大規模言語モデル(LLM)が登場するより前は、多くのクラウドワークロードはCPUを中心に動作していましたが、現在のAIインフラではGPUが中心的な計算資源となっています。

その理由はLLMの計算特性がGPUのアーキテクチャと非常に相性が良いためです。

Transformerは巨大な行列計算

現在のLLMの多くはTransformerアーキテクチャをベースに構築されています。

Transformerの主要な計算は以下のような処理で構成されています。

  • Attention
  • MLP(Feed Forward Network)
  • MatMul(行列積)

そしてこれらの処理のほとんどは、大規模な行列計算です。

行列計算は同じ演算を大量のデータに対して繰り返し実行するため、高い並列性を持つ計算になり、少数の高性能コアで逐次処理を行うCPUよりも多数の演算ユニットを持つGPUの方が効率良く処理できます。

GPUの並列アーキテクチャ

GPUはもともとグラフィックス処理のために設計されたプロセッサですが、そのアーキテクチャはAIワークロードにも非常に適しています。

  • 数千の並列演算コア
  • 行列演算に特化した専用演算ユニット(例:NVIDIAのTensor Coreなど)
  • 高帯域メモリ

このような構造により、GPUは大量のデータに対して同じ計算を並列に実行する処理を得意としており、LLMのように行列計算を中心とするワークロードではCPUよりもGPUの方が高いスループットを発揮することが出来ます。

LLM推論の特徴

LLMの推論処理には、通常の機械学習モデルとは異なるいくつかの特徴があります。

  • KVキャッシュ
  • バッチ推論
  • レイテンシー制約

LLMではトークン生成のたびに過去の情報を保持しながら計算を進める必要があり、計算処理だけではなくメモリの利用効率も重要になります。

またGPUは複数のリクエストをまとめて処理することで高い計算効率を発揮しますが、チャットのようなリアルタイムアプリケーションでは低レイテンシーが求められるため、大きなバッチを組むことが難しい場合もあります。

このようにLLMは、LLM推論計算の特徴からCPUよりGPUが必要になり、さらには計算性能だけでなくメモリ帯域や処理効率を含めたシステム全体の設計が重要となっています。

LLM爆発がGPUの重要性を加速させた

LLMがGPUと相性の良いワークロードであることを説明しましたが、もう1つ重要な変化があります。
それはLLMの利用が爆発的に拡大したことで、クラウドインフラの設計思想そのものが変わり始めています。

  • webアプリケーション
  • データベース
  • バッチ処理

上記のようにクラウドワークロードの多くはCPUを中心とした処理が主流でしたが、
生成AIの登場によってAI向けのインフラにおいては、GPUやAIアクセラレータの比重が急速に高まっています。

推論リクエストの爆発

2022年に登場したChatGPTをきっかけに生成AIは急速に普及し、現在では様々なサービスがLLMを利用しています。

  • AIチャット
  • AIコーディングエージェント
  • AI検索
  • AI SaaSアプリケーション

これらのサービスはすべてユーザーのリクエストごとにLLM推論を実行します。
つまりユーザーが増えるほど推論リクエストも増加し、クラウド側では膨大な計算処理が必要になります。

その結果クラウド事業者はGPUを常時稼働させる推論基盤と大規模な推論クラスタを構築する必要が出ており、GPUがクラウドインフラの中心的な計算資源になりつつあります。

GPU中心インフラの誕生

LLMの推論を大規模に処理するためには従来のクラウド構成では十分ではなく、AIワークロードを支えるためのインフラには次のような要素が必要になります。

  • GPU
  • HBM(高帯域メモリ)
  • 高帯域ネットワーク
  • 大規模な電力供給

GPU(AIアクセラレータ)はLLMの推論処理を実行する中心的な計算資源であり、HBMはそれを支える高帯域メモリとして重要な役割を持ちます。
さらに複数のGPUを効率的に連携させるには、高帯域かつ低レイテンシーなネットワークが必要になります。
またGPUはCPUに比べて消費電力が大きいため、大規模なAIクラスタではデータセンター全体の電力設計も重要になります。

このように生成AIの普及によってクラウドインフラは『CPU中心のクラウドから、GPU中心のAIインフラへ』大きく変化しようとしています。

しかしこのGPU中心の構造は新たな問題も生みます。それが次に説明するGPUの供給問題と価格問題です。

GPUの供給・価格問題

GPU中心のAIインフラには大きな課題があります。

それがGPUの供給不足と価格高騰です。

生成AIの急拡大によってGPU需要は急激に高まり、クラウド事業者やAI企業が大量にGPUを確保する状況が生まれ、GPU需要はこれまでにない規模で拡大しました。

しかしGPUは高度な半導体製造プロセスや広帯域メモリなどを必要とするため、短期間で供給量を増やすことが難しい製品でもあり、需要の急増に対して供給が追いつかず、クラウド事業者にとってGPU調達が大きな制約になりつつあります。

GPUは需給が逼迫しやすい

このような状況では、新しいGPUを導入したくてもすぐに確保できないケースも珍しくなく、AI企業やクラウド事業者による大規模な調達競争の対象になっています。

AI時代のクラウドでは、『GPUを使うこと』だけではなく『必要なGPUを安定して確保できるかどうか』 が重要になる場面も増えています。

GPU価格の高騰

このGPU不足はそのまま価格の高騰にもつながります。
高性能GPUはもともと高価な製品ですが、生成AI需要の拡大によってその価値はさらに高まりました。
クラウド事業者にとってGPUは、『データセンターの中でも最も高価な部品の1つ』 と言われることもあります。

さらにGPUは購入コストだけではなく、

  • 電力消費
  • 冷却設備
  • ネットワーク
  • サーバ構成

など、周辺インフラのコストにも大きく影響します。

つまりGPUは単に高価な計算資源というだけではなく、クラウドインフラ全体のコスト構造に大きな影響を与える存在になっています。

CUDAエコシステム依存

そしてもう1つ重要なのが、GPU利用が特定のソフトウェアエコシステムに大きく依存している点です。

現在のAI開発では多くのフレームワークやライブラリがCUDAを中心に最適化されています。
そのためGPUを使うことは単にハードウェアを選ぶというだけではなく、ソフトウェア基盤まで含めて特定ベンダーに依存することを意味します。

もちろんCUDAエコシステムは非常に成熟しており、AI開発を加速させてきた大きな要因でもありますがその一方でクラウド事業者の視点で見ると、

  • 調達
  • コスト
  • ソフトウェア基盤

このすべてを外部ベンダーに強く依存する構造でもあり、これはクラウド事業者にとって長期的には大きな経営上・戦略上のリスクになり得ます。

このようにGPUは非常に強力な計算資源である一方で、以下のような課題も抱えています。

  • 供給が不安定になりやすい
  • 価格が高い
  • 消費電力が大きい
  • 特定エコシステムへの依存が強い

つまりGPUは万能ではありますが、クラウド事業者にとって常に最適な存在とは限りません。
そしてこの問題は、次に説明する推論コストの現実によってさらに深刻になります。

推論コストの現実

生成AIサービスを考える上で、もう1つ避けて通れない重要な視点があります。
それが推論コストです。

LLMでは学習コストが注目されがちですが、サービスとして継続的に提供する場合クラウド事業者にとってより重要になるのはむしろ推論コストです。
なぜなら学習は一度実行すれば終わるのに対し、推論はユーザーのリクエストごとに何度も繰り返し発生するからです。

特に生成AIサービスでは、ユーザー数や利用頻度が増えるほど推論回数も増加します。
そのためAIサービスの収益性を考える上では、いかに推論を低コストで処理できるかが極めて重要になります。

LLMは計算コストが高い

LLMの推論コストが高くなりやすい理由はいくつかあります。

まず1つ目はモデルサイズです。
モデルのパラメーター数が増えるほど、推論時に必要な計算量やメモリ使用量は大きくなります。

2つ目はトークン数です。
生成AIでは入力トークンと出力トークンの両方に応じて計算量が増えていき、特に長いコンテキストを扱う場合は、計算負荷もメモリ負荷も大きくなります。

3つ目はレイテンシー要求です。
リアルタイム性が求められるチャットや対話型アプリケーションでは、単に大量処理できれば良いわけではなく短時間で応答を返す必要があり、この制約によって大きなバッチを組みにくくなりGPUの利用効率が下がる場合があります。

このようにLLM推論は、単にモデルを1回動かせば良い処理ではなく、

  • モデルサイズ
  • トークン数
  • レイテンシー要求

といった複数の要因によってコストが大きく左右されるワークロードです。

重要なのは $/token

クラウド事業者の視点ではAIインフラで本当に重要なのは単純なピーク性能ではなく、レイテンシー・スループット・利用効率、そして1トークンあたりの推論コスト($/token) をどうバランスさせるかが重要になります。

つまり注目すべき指標は、FLOPSや理論性能そのものではなく、1トークンあたりの推論コスト($/token)になります。

たとえ高性能なGPUを使っていても、推論単価が高ければAIサービス全体の収益性は悪化しますし、逆に1トークンあたりのコストを下げることができれば、同じAIサービスでもより多くのユーザーに提供しやすくなります。

生成AIが広く使われるようになるほど、クラウド事業者にとっては

「どれだけ高性能か」だけではなく、「必要な性能を満たしながら、どれだけ効率よく推論できるか

が重要になります。

GPUは推論でも有力だが最適とは限らない

GPUはもともと非常に汎用性が高く、特に大規模な学習処理において大きな強みを発揮し、LLMの学習基盤としては非常に優れた選択肢となります。

またGPUは推論においても広く利用されており高い柔軟性やエコシステムの成熟度から、現在でも中心的な計算資源の1つです。

しかし推論の世界では、必ずしもGPUが常に最適というわけではありません。
学習ほどの柔軟性や汎用性が不要な場面も多く、ワークロードによってはGPUの持つ高い性能や汎用性がコストに対して過剰になる場合があります。

特に以下のような観点では専用アクセラレータの方が有利になるケースもあります。

  • 高いスループット
  • 低い推論単価
  • 電力効率
  • 安定した運用コスト

特に大規模なAIサービスを運用するクラウド事業者にとっては、高価で電力消費の大きいGPUを推論に大量投入し続けることは、長期的に見ると大きな負担になります。

つまりAIサービスの普及によって、クラウド事業者は

「GPUを使うかどうか」ではなく、「ワークロードに応じて最適な計算資源を選び、必要な性能を効率よく満たせるか」

を重視するようになっていきます。

後編へ!!!