前編からどうぞ!

前編

目次

前編

  • はじめに
    • LLM時代のクラウドは何が変わったのか
  • なぜLLMはCPUではなくGPUなのか
    • Transformerは巨大な行列計算
    • GPUの並列アーキテクチャ
    • LLM推論の特徴
  • LLM爆発がGPUの重要性を加速させた
    • 推論リクエストの爆発
    • GPU中心インフラの誕生
  • GPUの供給・価格問題
    • GPUは需給が逼迫しやすい
    • GPU価格の高騰
    • CUDAエコシステム依存
  • 推論コストの現実
    • LLMは計算コストが高い
    • 重要なのは $/token
    • GPUは推論でも有力だが最適とは限らない

後編

  • ハイパースケーラーの垂直統合
    • 自社チップの流れ
    • なぜチップを自社開発するのか
    • AI時代のクラウド競争
  • AWS独自チップの意味
    • Inferentia
    • Trainium
    • GPUとの違い
  • 実務ではどう考えるべきか
    • GPUだけでは最適化しにくい場面が増えている
    • ワークロードごとの最適化
    • 設計に求められる視点
  • まとめ
    • 最後に

ハイパースケーラーの垂直統合

ここまで見てきたように、LLM時代のクラウドではGPUの供給不足、価格高騰、そして推論コストの増大が大きな課題になっています。

こうした課題に対して、クラウド事業者は単にGPUを調達して提供するだけではなく、自らインフラの中核を設計する方向へと進み始めました。

その流れの中心にあるのが、ハイパースケーラーによる垂直統合です。

ここで言う垂直統合とは、クラウド事業者がアプリケーション基盤やソフトウェアだけでなく、計算資源そのものまで自社で最適化しようとする動きを指します。

自社チップの流れ

この流れは、すでに主要なクラウド事業者の戦略として明確に表れています。

たとえばGoogleはTPUを開発し、自社のAI基盤に組み込んできました。
AWSもTrainiumとInferentiaを展開し、学習と推論の両方で独自の選択肢を用意しています。
MicrosoftもMaiaをはじめとする独自AIアクセラレータの開発を進めています。

つまり現在のクラウド競争はCPUやGPUといった既存の汎用チップをどう使うかという段階から、クラウド事業者自身がAI向けの計算基盤をどう作るかという段階に入っています。

なぜチップを自社開発するのか

クラウド事業者が自社チップを開発する理由は、大きく分けると3つあります。

1つ目は、GPU依存を下げるためです。
AI需要が急増する中で、外部ベンダーのGPU供給に全面的に依存する構造は調達面でも価格面でも大きな制約になります。

2つ目は、コストを最適化するためです。
特に推論では、汎用性の高いGPUよりも特定のワークロードに最適化した専用チップの方が効率的に動かせる場合があります。
これは単なるハードウェアの置き換えではなく、電力効率や運用コストまで含めた全体最適の話です。

3つ目は、クラウドとしての差別化です。
同じGPUを並べるだけでは、各社のクラウドに本質的な違いは出しにくくなります。
一方で、自社チップとソフトウェアスタックを組み合わせて最適化できれば、価格、性能、運用性の面で独自の価値を出しやすくなります。

つまり自社チップの開発は、単なる技術アピールではなく調達・コスト・差別化を同時に解くための戦略と言えます。

AI時代のクラウド競争

このように見ると、AI時代のクラウド競争は単なるGPU調達競争ではありません。

これからの競争で問われるのは、以下のようなインフラ設計そのものの力です。

  • どれだけ大量の計算資源を持てるか
  • どれだけ安く推論を提供できるか
  • どれだけワークロードに合わせて最適化できるか

従来のクラウドでは、仮想マシンやストレージ、ネットワークをどう組み合わせるかが重要でした。
しかしLLM時代のクラウドでは、その前段としてどの計算資源を、どの用途に、どのコストで割り当てるかがより重要になっています。

つまりクラウドの競争軸は、サービスの表層だけではなく計算基盤の設計力そのものへと移っています。

そしてAWSのTrainiumとInferentiaも、まさにこの文脈の中で生まれたものです。

AWS独自チップの意味

ここまで見てきたようにLLM時代のクラウドではGPUの供給不足、価格高騰、そして推論コストの増大が大きな課題になっています。

こうした状況の中でAWSが進めてきたのが、独自チップによるAI基盤の最適化で、その中心にあるのが推論向けに最適化されたInferentiaと、大規模学習向けに設計されたTrainiumです。

これらは単にGPUの代替として作られたものではありません。
AWSが自社クラウドの中で、AIワークロードをより効率よく処理するために設計したクラウド最適化型の計算基盤と見るべきです。

Inferentia

InferentiaはAWSが推論処理向けに設計した専用チップです。

推論では学習ほどの柔軟性や汎用性よりも、以下の要素が重要になります。

  • 高いスループット
  • 低い推論単価
  • 電力効率
  • 安定した運用コスト

Inferentiaは、こうした推論ワークロードの特性に合わせて最適化されたチップです。
特にクラウド上で大量の推論リクエストを処理する用途ではGPUのような高い汎用性よりも、決まった処理を効率よく低コストで実行することが重要になります。

つまりInferentiaは単に推論を高速化するためのチップではなく、推論をスケール可能かつ持続可能なコストで提供するための計算基盤と言えます。

Trainium

TrainiumはAWSが大規模学習向けに設計した専用チップです。

LLMの学習では、膨大な計算量を長時間にわたって処理する必要があり、単体性能だけでなく大規模に分散させたときの効率が重要になります。

このため学習基盤では、

  • 大規模な分散処理
  • ネットワークを含めた全体設計
  • 長時間運用時のコスト効率

といった観点が重要になります。

Trainiumはこうした大規模学習の特性を踏まえたうえで、AWSのクラウド上で効率的に学習処理を実行できるよう最適化されていて、Neuron SDKを通じてソフトウェアスタックと一体で提供されている点も特徴です。

つまりTrainiumは、単に学習処理を実行するためのチップではなくAWS上で大規模な機械学習を効率よくスケールさせるための計算基盤と言えます。

GPUとの違い

ここで重要なのは、GPUとAWS独自チップの立ち位置の違いです。
GPUは非常に汎用性が高く、学習にも推論にも幅広く対応でき、柔軟性の高さは大きな強みであり、現在のAIインフラにおいて中心的な存在であることは間違いありません。

一方でAWSの独自チップはGPUのような汎用性を最優先にした設計ではありません。
AWSのクラウドで実際に発生するワークロード、つまり
学習・推論・コスト・電力効率・運用性といった観点を踏まえてより目的に特化して最適化されています。

つまりGPUが汎用的な高性能計算資源だとすれば、TrainiumやInferentiaはクラウド事業者が自社のAI基盤を最適化するための計算資源です。

この違いは非常に重要で、AWSが独自チップを開発した意味は単に「GPU以外の選択肢を増やすこと」ではなく、本質はAI時代のクラウドに必要な性能・コスト・供給・運用性を、自社でコントロールできるようにすることにあります。

そしてこれはAWSがAI時代のクラウド競争をハードウェア調達の問題ではなく、インフラ全体の設計問題として捉えていることを示しています。

実務ではどう考えるべきか

ここまで見てきたようにTrainiumとInferentiaは単なる新しいチップではなく、AWSがLLM時代のクラウドに合わせて計算基盤そのものを再設計した結果で、この変化はAWSを利用する側にとっても無視できないものであり、実際の設計の考え方にも影響を与え始めています。

なぜならこれからのAI案件では単にGPU環境を用意するだけでは十分ではなく、ワークロードに応じて最適な計算資源を選び、全体を設計することが求められるからです。

GPUだけでは最適化しにくい場面が増えている

これまでAI基盤の設計では、「AIならとりあえずGPU」という考え方が主流でした。
もちろん今でもGPUは重要な計算資源であり、特に学習や高い柔軟性が必要な用途では中心的な役割を担います。

ただし、すべてのワークロードをGPUだけで処理する設計はコストや運用の面で必ずしも最適ではなく、AIインフラはGPUだけで完結させるものではなく、GPUと専用チップを適材適所で使い分ける設計へと変わっていっています。

ワークロードごとの最適化

重要なのはチップの性能を単体で比較することではなく、どのワークロードにどの計算資源が適しているのかを整理して考えることです。

たとえば、モデル学習では依然としてGPUやTrainiumが有力な選択肢になります。
一方で、推論APIのように継続的なコスト最適化が重要な領域ではInferentiaが有効なケースがあります。
さらに小規模な処理や周辺システムではCPUが適している場面も少なくありません。

つまり実際の設計では、

用途 適した計算資源
モデル学習 GPU / Trainium
大規模推論・サービング GPU / Inferentia / Trainium
推論API GPU / Inferentia
小規模推論・周辺処理 CPU / Graviton

のように、ワークロードごとに役割を分けて考える必要があります。
これからのAI基盤設計で重要なのは、「どれが最強か」を決めることではなく、どこに何を割り当てると全体最適になるかを考えることです。

設計に求められる視点

この変化の中で、AIインフラに求められる視点も変わってきています。

これまでは、GPUインスタンスを選定して環境を構築すること自体が価値になる場面もありましたが、今後はそれだけでは不十分でより重要になるのは次のような観点です。

  • 推論コストをどこまで下げられるか
  • 学習と推論をどう分離して設計するか
  • GPU依存をどの程度下げられるか
  • AWSの専用チップをどう組み込むか

つまりこれから重要になるのは単なる環境構築ではなく、AIインフラ全体をどう設計するかという視点です。

顧客にとって本当に重要なのは、「GPUを何台使うか」ではなく、

  • サービスを継続可能なコストで運用できるか
  • 将来的な需要増加に耐えられるか
  • 特定のリソース不足に引きずられないか

といった点です。

その意味で、TrainiumやInferentiaを理解することは単にAWSの新サービスを知ることではなく、AI時代のクラウド設計をどう考えるべきかを理解することそのものです。

重要なのは、GPU中心の世界を前提にするのではなく、GPU・専用チップ・CPUを含めた全体の計算資源をどう組み合わせるかを設計できるようになることです。

今後のAI案件では、こうした視点を持てるかどうかが提案や設計の差につながっていくはずです。

まとめ

本記事ではLLMの計算特性から始まり、生成AIの普及によってクラウドインフラがどのように変化しているのかを整理してきました。

LLMはもともとGPUと相性の良いワークロードでしたが、その利用が爆発的に拡大したことでクラウドの前提そのものが変わり始めています。
またGPU中心のインフラは高い性能を提供する一方で、供給不足・価格高騰・推論コストの増大といった課題も抱えています。

特に生成AIサービスでは学習コスト以上に推論コストが重要になり、どれだけ高性能かではなく、どれだけ低コストで推論できるかがクラウド事業者にとっての重要な指標になっています。

こうした背景の中でAWSはTrainiumとInferentiaを通じて、GPUに依存しない新しい選択肢を提示しており、これらは単なる代替手段ではなくAIワークロードに合わせて計算資源を最適化するというクラウドの新しい方向性を示すものです。

そしてこの変化は単にインフラの話にとどまりません。

AI時代の設計において重要なのは、GPUを使うことではなく、ワークロードに応じて最適な計算資源を選び、組み合わせることとなります。

最後に

AIインフラの時代に求められるのは、GPUを使うことそのものではありません。
ワークロードに応じて最適な計算資源を選び、組み合わせていくことです。

そしてその設計力こそがこれからのAI時代を支える重要な力になっていくはずです。