【前編】AWS Trainium と Inferentiaはなぜ必要なのか

はじめに
- LLM時代のクラウドは何が変わったのか
なぜLLMはCPUではなくGPUなのか
- Transformerは巨大な行列計算
- GPUの並列アーキテクチャ
- LLM推論の特徴
LLM爆発がGPUの重要性を加速させた
- 推論リクエストの爆発
- GPU中心インフラの誕生
GPUの供給・価格問題
- GPUは需給が逼迫しやすい
- GPU価格の高騰
- CUDAエコシステム依存
推論コストの現実
- LLMは計算コストが高い
- 重要なのは $/token
- GPUは推論でも有力だが最適とは限らない

後編

ハイパースケーラーの垂直統合
- 自社チップの流れ
- なぜチップを自社開発するのか
- AI時代のクラウド競争
AWS独自チップの意味
- Inferentia
- Trainium
- GPUとの違い
実務ではどう考えるべきか
- GPUだけでは最適化しにくい場面が増えている
- ワークロードごとの最適化
- 設計に求められる視点
まとめ
- 最後に

はじめに

LLM時代のクラウドは何が変わったのか

ChatGPT登場以降、生成AIは急速に普及し様々なアプリケーションが大規模言語モデル（LLM）を利用するようになっていき、その結果としてクラウドインフラの中心は従来のCPUベースのワークロードからGPUを中心としたAI計算基盤へと大きくシフトしようとしています。

LLMの学習推論処理は巨大な行列演算と高い並列性を持つ計算が中心となるため、従来のCPUよりもGPUのアーキテクチャと非常に相性が良いワークロードとなっており、現在のAIインフラはGPUを中心に設計されることが一般的になっています。

しかし、このGPU中心の構造は新たな課題を生んでいます。

爆発的な需要によるGPUの供給不足
それに伴うGPU価格の高騰
推論処理におけるコストの増大

そしてAIサービスが広がるにつれてクラウド事業者にとって重要になるのは、必要なレイテンシーやスループットを満たしながら、推論コストをどこまで下げられるか という点です。

このような背景の中で、クラウド事業者はGPUに完全に依存するのではなくAIワークロードに最適化された専用のチップ開発を進めています。
こうした動きはLLMブーム以前から進められてきたものですが、生成AIの急拡大によってその重要性はさらに高まっています。

そしてその代表例が、Amazon Web Services（AWS）が開発したTrainium と Inferentia です。

本記事では

なぜLLMはGPUで動くのか
なぜGPUだけでは限界があるのか
なぜAWSは独自チップを開発したのか
現場で求められる設計視点の変化

と言う流れを通して、LLM時代のクラウドインフラ戦略を整理していきます！

なぜLLMはCPUではなくGPUなのか

大規模言語モデル（LLM）が登場するより前は、多くのクラウドワークロードはCPUを中心に動作していましたが、現在のAIインフラではGPUが中心的な計算資源となっています。

その理由はLLMの計算特性がGPUのアーキテクチャと非常に相性が良いためです。

Transformerは巨大な行列計算

現在のLLMの多くはTransformerアーキテクチャをベースに構築されています。

Transformerの主要な計算は以下のような処理で構成されています。

Attention
MLP（Feed Forward Network）
MatMul（行列積）

そしてこれらの処理のほとんどは、大規模な行列計算です。

行列計算は同じ演算を大量のデータに対して繰り返し実行するため、高い並列性を持つ計算になり、少数の高性能コアで逐次処理を行うCPUよりも多数の演算ユニットを持つGPUの方が効率良く処理できます。

GPUの並列アーキテクチャ

GPUはもともとグラフィックス処理のために設計されたプロセッサですが、そのアーキテクチャはAIワークロードにも非常に適しています。

数千の並列演算コア
行列演算に特化した専用演算ユニット（例：NVIDIAのTensor Coreなど）
高帯域メモリ

このような構造により、GPUは大量のデータに対して同じ計算を並列に実行する処理を得意としており、LLMのように行列計算を中心とするワークロードではCPUよりもGPUの方が高いスループットを発揮することが出来ます。

LLM推論の特徴

LLMの推論処理には、通常の機械学習モデルとは異なるいくつかの特徴があります。

KVキャッシュ
バッチ推論
レイテンシー制約

LLMではトークン生成のたびに過去の情報を保持しながら計算を進める必要があり、計算処理だけではなくメモリの利用効率も重要になります。

またGPUは複数のリクエストをまとめて処理することで高い計算効率を発揮しますが、チャットのようなリアルタイムアプリケーションでは低レイテンシーが求められるため、大きなバッチを組むことが難しい場合もあります。

このようにLLMは、LLM推論計算の特徴からCPUよりGPUが必要になり、さらには計算性能だけでなくメモリ帯域や処理効率を含めたシステム全体の設計が重要となっています。

LLM爆発がGPUの重要性を加速させた

LLMがGPUと相性の良いワークロードであることを説明しましたが、もう1つ重要な変化があります。
それはLLMの利用が爆発的に拡大したことで、クラウドインフラの設計思想そのものが変わり始めています。

webアプリケーション
データベース
バッチ処理

上記のようにクラウドワークロードの多くはCPUを中心とした処理が主流でしたが、
生成AIの登場によってAI向けのインフラにおいては、GPUやAIアクセラレータの比重が急速に高まっています。

推論リクエストの爆発

2022年に登場したChatGPTをきっかけに生成AIは急速に普及し、現在では様々なサービスがLLMを利用しています。

AIチャット
AIコーディングエージェント
AI検索
AI SaaSアプリケーション

これらのサービスはすべてユーザーのリクエストごとにLLM推論を実行します。
つまりユーザーが増えるほど推論リクエストも増加し、クラウド側では膨大な計算処理が必要になります。

その結果クラウド事業者はGPUを常時稼働させる推論基盤と大規模な推論クラスタを構築する必要が出ており、GPUがクラウドインフラの中心的な計算資源になりつつあります。

GPU中心インフラの誕生

LLMの推論を大規模に処理するためには従来のクラウド構成では十分ではなく、AIワークロードを支えるためのインフラには次のような要素が必要になります。

GPU
HBM（高帯域メモリ）
高帯域ネットワーク
大規模な電力供給

GPU（AIアクセラレータ）はLLMの推論処理を実行する中心的な計算資源であり、HBMはそれを支える高帯域メモリとして重要な役割を持ちます。
さらに複数のGPUを効率的に連携させるには、高帯域かつ低レイテンシーなネットワークが必要になります。
またGPUはCPUに比べて消費電力が大きいため、大規模なAIクラスタではデータセンター全体の電力設計も重要になります。

このように生成AIの普及によってクラウドインフラは『CPU中心のクラウドから、GPU中心のAIインフラへ』大きく変化しようとしています。

しかしこのGPU中心の構造は新たな問題も生みます。それが次に説明するGPUの供給問題と価格問題です。

GPUの供給・価格問題

GPU中心のAIインフラには大きな課題があります。

それがGPUの供給不足と価格高騰です。

生成AIの急拡大によってGPU需要は急激に高まり、クラウド事業者やAI企業が大量にGPUを確保する状況が生まれ、GPU需要はこれまでにない規模で拡大しました。

しかしGPUは高度な半導体製造プロセスや広帯域メモリなどを必要とするため、短期間で供給量を増やすことが難しい製品でもあり、需要の急増に対して供給が追いつかず、クラウド事業者にとってGPU調達が大きな制約になりつつあります。

GPUは需給が逼迫しやすい

このような状況では、新しいGPUを導入したくてもすぐに確保できないケースも珍しくなく、AI企業やクラウド事業者による大規模な調達競争の対象になっています。

AI時代のクラウドでは、『GPUを使うこと』だけではなく『必要なGPUを安定して確保できるかどうか』 が重要になる場面も増えています。

GPU価格の高騰

このGPU不足はそのまま価格の高騰にもつながります。
高性能GPUはもともと高価な製品ですが、生成AI需要の拡大によってその価値はさらに高まりました。
クラウド事業者にとってGPUは、『データセンターの中でも最も高価な部品の1つ』 と言われることもあります。

さらにGPUは購入コストだけではなく、

電力消費
冷却設備
ネットワーク
サーバ構成

など、周辺インフラのコストにも大きく影響します。

つまりGPUは単に高価な計算資源というだけではなく、クラウドインフラ全体のコスト構造に大きな影響を与える存在になっています。

CUDAエコシステム依存

そしてもう１つ重要なのが、GPU利用が特定のソフトウェアエコシステムに大きく依存している点です。

現在のAI開発では多くのフレームワークやライブラリがCUDAを中心に最適化されています。
そのためGPUを使うことは単にハードウェアを選ぶというだけではなく、ソフトウェア基盤まで含めて特定ベンダーに依存することを意味します。

もちろんCUDAエコシステムは非常に成熟しており、AI開発を加速させてきた大きな要因でもありますがその一方でクラウド事業者の視点で見ると、

調達
コスト
ソフトウェア基盤

このすべてを外部ベンダーに強く依存する構造でもあり、これはクラウド事業者にとって長期的には大きな経営上・戦略上のリスクになり得ます。

このようにGPUは非常に強力な計算資源である一方で、以下のような課題も抱えています。

供給が不安定になりやすい
価格が高い
消費電力が大きい
特定エコシステムへの依存が強い

つまりGPUは万能ではありますが、クラウド事業者にとって常に最適な存在とは限りません。
そしてこの問題は、次に説明する推論コストの現実によってさらに深刻になります。

推論コストの現実

生成AIサービスを考える上で、もう1つ避けて通れない重要な視点があります。
それが推論コストです。

LLMでは学習コストが注目されがちですが、サービスとして継続的に提供する場合クラウド事業者にとってより重要になるのはむしろ推論コストです。
なぜなら学習は一度実行すれば終わるのに対し、推論はユーザーのリクエストごとに何度も繰り返し発生するからです。

特に生成AIサービスでは、ユーザー数や利用頻度が増えるほど推論回数も増加します。
そのためAIサービスの収益性を考える上では、いかに推論を低コストで処理できるかが極めて重要になります。

LLMは計算コストが高い

LLMの推論コストが高くなりやすい理由はいくつかあります。

まず１つ目はモデルサイズです。
モデルのパラメーター数が増えるほど、推論時に必要な計算量やメモリ使用量は大きくなります。

２つ目はトークン数です。
生成AIでは入力トークンと出力トークンの両方に応じて計算量が増えていき、特に長いコンテキストを扱う場合は、計算負荷もメモリ負荷も大きくなります。

３つ目はレイテンシー要求です。
リアルタイム性が求められるチャットや対話型アプリケーションでは、単に大量処理できれば良いわけではなく短時間で応答を返す必要があり、この制約によって大きなバッチを組みにくくなりGPUの利用効率が下がる場合があります。

このようにLLM推論は、単にモデルを1回動かせば良い処理ではなく、

モデルサイズ
トークン数
レイテンシー要求

といった複数の要因によってコストが大きく左右されるワークロードです。

重要なのは $/token

クラウド事業者の視点ではAIインフラで本当に重要なのは単純なピーク性能ではなく、レイテンシー・スループット・利用効率、そして1トークンあたりの推論コスト（$/token） をどうバランスさせるかが重要になります。

つまり注目すべき指標は、FLOPSや理論性能そのものではなく、1トークンあたりの推論コスト（$/token）になります。

たとえ高性能なGPUを使っていても、推論単価が高ければAIサービス全体の収益性は悪化しますし、逆に1トークンあたりのコストを下げることができれば、同じAIサービスでもより多くのユーザーに提供しやすくなります。

生成AIが広く使われるようになるほど、クラウド事業者にとっては

「どれだけ高性能か」だけではなく、「必要な性能を満たしながら、どれだけ効率よく推論できるか

が重要になります。

GPUは推論でも有力だが最適とは限らない

GPUはもともと非常に汎用性が高く、特に大規模な学習処理において大きな強みを発揮し、LLMの学習基盤としては非常に優れた選択肢となります。

またGPUは推論においても広く利用されており高い柔軟性やエコシステムの成熟度から、現在でも中心的な計算資源の1つです。

しかし推論の世界では、必ずしもGPUが常に最適というわけではありません。
学習ほどの柔軟性や汎用性が不要な場面も多く、ワークロードによってはGPUの持つ高い性能や汎用性がコストに対して過剰になる場合があります。

特に以下のような観点では専用アクセラレータの方が有利になるケースもあります。

高いスループット
低い推論単価
電力効率
安定した運用コスト

特に大規模なAIサービスを運用するクラウド事業者にとっては、高価で電力消費の大きいGPUを推論に大量投入し続けることは、長期的に見ると大きな負担になります。

つまりAIサービスの普及によって、クラウド事業者は

「GPUを使うかどうか」ではなく、「ワークロードに応じて最適な計算資源を選び、必要な性能を効率よく満たせるか」

を重視するようになっていきます。

【前編】AWS Trainium と Inferentiaはなぜ必要なのか

目次

前編

後編

はじめに

LLM時代のクラウドは何が変わったのか

なぜLLMはCPUではなくGPUなのか

Transformerは巨大な行列計算

GPUの並列アーキテクチャ

LLM推論の特徴

LLM爆発がGPUの重要性を加速させた

推論リクエストの爆発

GPU中心インフラの誕生

GPUの供給・価格問題

GPUは需給が逼迫しやすい

GPU価格の高騰

CUDAエコシステム依存

推論コストの現実

LLMは計算コストが高い

重要なのは $/token

GPUは推論でも有力だが最適とは限らない

後編へ！！！

ウワサのClaude Design、使ってみた

KDDI から合流して1ヶ月半。最強エンジニア集団の中で感じた「プレッシャー」と「3つの感動」

RHEL 7 から 9 へのインプレースアップグレード手順

【Google I/O 2026】Gemini Omniとは？Veoとの違いや強み、生成できる動画まで徹底解説！

Figma ＆ Claude 連携で開発を効率化するTips集

【前編】AWS Trainium と Inferentiaはなぜ必要なのか

目次

前編

後編

はじめに

LLM時代のクラウドは何が変わったのか

なぜLLMはCPUではなくGPUなのか

Transformerは巨大な行列計算

GPUの並列アーキテクチャ

LLM推論の特徴

LLM爆発がGPUの重要性を加速させた

推論リクエストの爆発

GPU中心インフラの誕生

GPUの供給・価格問題

GPUは需給が逼迫しやすい

GPU価格の高騰

CUDAエコシステム依存

推論コストの現実

LLMは計算コストが高い

重要なのは $/token

GPUは推論でも有力だが最適とは限らない

後編へ！！！

関連記事Related Articles

AWS、Azureなどで利用できるフロントエンド、SpaceBlockの設定方法

EMRってなんじゃ？（ImpalaでCloudfrontの爆速ログ集計）

第9回クラウド女子会(学校編)に参加してきました

Amazon Linux でも Docker 1.0 になってた小ネタ

S3 の事前署名付き（期限付き）URL を生成する