今回は、AWS re:Invent 2025に開催された「Infrastructure Innovations」のキーノートについてまとめていきます。

シリコンからサービスに至るまで、AWSのエンジニアリングの深層と、AI変革(AI Transformation)を支えるインフラストラクチャの進化について語られました。

変わらないコア属性とNitro System

AI時代において、アプリケーションは劇的に変化しても、AWSクラウドが重視するコア属性は変わりません。

その基盤となるのが AWS Nitro System です。
かつて仮想化技術には「ジッター(Jitter)」と呼ばれるパフォーマンスのゆらぎがありましたが、AWSはNitro Systemによって仮想化機能を専用ハードウェアにオフロードすることで、ベアメタル以上の性能と安定性を実現しました。

Graviton5 と M9gインスタンスの発表

続いてDave Brown氏が登壇し、独自プロセッサ「Graviton」の最新情報を発表しました。
前世代のGraviton4は高性能でしたが、コア数を増やしたことで、相対的にコアあたりのL3キャッシュが減少するというトレードオフがありました。 これを解消し、データ集約型ワークロードに最適化したのが Graviton5 です。

  • スペック
    • 1つのパッケージに192コアを搭載
  • キャッシュ強化
    • 前世代比でL3キャッシュの総量は5倍、コアあたりでも2.6倍に増加
  • M9gインスタンス
    • Graviton5を搭載した「M9gインスタンス(プレビュー)」は、M8gと比較して最大25%のパフォーマンス向上を実現

Lambda Managed Instances の技術的背景

サーバーレスコンピューティングの分野でも、大きなアップデートがありました。 前日のKeynoteですでに発表がありましたが、本セッションでは「なぜこれを作ったのか」という技術的な背景が深掘りされました。

これまで、Lambda(サーバーレス)とEC2(サーバー)は別のものと考えられてきましたが、顧客は「インフラ管理はしたくない(Serverless)が、ハードウェアの選択肢は欲しい(EC2)」というニーズを持っていました。

これに応える新機能が Lambda Managed Instances です。
Lambda関数を自分のアカウント内のEC2インスタンスで実行することができます。
これによりプロビジョニング、パッチ適用、スケーリングはLambdaが管理しつつ、ユーザーはインスタンスタイプやGPUなどのハードウェアを選択ができるようになります。

「What is serverless?」

改めてサーバーレスとは何かの問いかけがありました。
サーバーレスとはサーバーが存在しないことではなく、サーバー管理が存在しないことであると述べられていました。

Amazon Bedrock を支える新推論エンジン「Project Mantle」

生成AIの「推論」は、従来のWebアプリとは異なる複雑なプロセスを経るため、新たなアーキテクチャが必要です。
AWSは「Project Mantle」と呼ばれる新しい推論エンジンを構築し、Amazon Bedrockを支えています。

主な技術革新

  1. 3つのサービスティア
    1. 顧客がリクエストの優先度を指定可能に。
      ◦ Priority: リアルタイム性が求められるワークロード。
      ◦ Standard: 一般的で予測可能なワークロード。
      ◦ Flexible: 速度よりコスト効率を重視するバックグラウンド処理。
  2. 分離と公平性(Fairness)
    1. 各顧客に独自のキューを持たせることで、他人のバーストトラフィックの影響を受けない仕組み(Noisy Neighbor問題の解消)
  3. Journal
    1. DynamoDBやS3でも使われているトランザクションログ技術を応用。障害時に最初から処理をやり直すのではなく、中断した箇所から再開可能にすることで、無駄な計算リソースの消費を防ぎます。

Amazon S3 Vectors

非構造化データ(動画、画像、音声など)の検索を強化するための新機能として、Amazon S3 Vectors の詳細が解説されました。

ベクトル検索は通常、データをメモリ上に展開する必要がありコストが高くなりがちですが、S3 VectorsはデータをS3に置いたまま効率的な検索を可能にします。

データを事前にVector Neighborhoodsとしてクラスタリングし、検索時は関連する一部のデータだけをメモリにロードして近似最近傍探索を行います。
これは20億ベクトル規模のデータベースに対し、100ミリ秒以下の検索レイテンシを実現しています。

Trainium3 と UltraServers

最後に、AIトレーニング用チップの最新版 Trainium3 が発表されました。

Trainium3 UltraServer

これは、2つのラックにまたがり144個のTrainium3チップを搭載し、巨大なAIスーパーコンピュータとして機能します。
前世代と比較して、計算性能は4.4倍、メモリ帯域幅は3.9倍に向上しており、1つのサーバーボード上に、Trainium3(AI)、Graviton(CPU)、Nitro(IO/Security)というAWSの3大カスタムチップが初めて同居しました。これにより専用のヘッドノードが不要になり、効率的なメンテナンスが可能になります。

開発者体験の向上

ハードウェアだけでなく、ソフトウェア面も進化しています。 PyTorchのコードにおいて、わずか1行の変更 (to('cuda')to('neuron') に変えるだけ)で、Trainium上で動作可能になる「PyTorch Native」な体験が紹介されました。
ゲストのDecartは、Trainium3を使って「リアルタイム・ライブ・ビジュアル・インテリジェンス」のデモを披露。生成AIがリアルタイムで映像(この会場の様子や、アニメ化されたバスケットボールの試合など)を生成する様子は圧巻でした。

まとめ

Peter DeSantis氏はセッションの最後に、「AWSは過去20年間、制約を取り除き、あらゆるビルディングブロックを提供することに注力してきた」と語りました。
AI時代においてもその姿勢は変わらず、開発者がインフラの制約を気にせず「What will you build next?(次は、何を作りますか?)」という問いに向き合える環境を提供し続けるというメッセージで締めくくられました。

インフラの深部からアプリケーションレイヤーまで、AWSの技術的な厚みを感じさせる非常に濃いセッションでした。