内部統制推進室 兼 クラウドインテグレーション事業部の廣山です。
遅ればせながら、Google Cloud Next 2025 現地参加1日目のイベントレポートをお届けいたします。

セッション情報

セッションタイトル:Google’s AI-powered next-gen global network: Built for the Gemini era

はじめに

本セッションでは、Google のネットワークのこれまでの進化の歴史を3つの時代(フェーズ)に分けて解説いただきました。さらに、AI によってもたらされた新たな時代についての話も伺うことができました。

現状の Google のネットワークとこれまでの進化

現在、Google のネットワークは200万マイル以上の光ファイバーに及び、これは市場における次に大きなネットワークの約10倍の規模とのことです。また、Google が直接投資した33本の海底ケーブルを含み、200以上の国と地域を接続しています。さらに、42のグローバルクラウドリージョンと124のサーバー拠点を結びつけ、世界でも有数のピアリングネットワークの一つでもあります。この巨大なネットワーク基盤が、Google の各種サービス、例えば検索、Gmail、Google Cloud などを、最高のパフォーマンス、低遅延、そして高い信頼性でユーザーに提供することを可能にしています。

私自身、Google Cloud の強みは?って聞かれると、その一つにネットワークを挙げてきましたが、実際、定量的なすごさを改めて認識できました。

この進化は、3つの時代に分類されます。

第1の時代:均質性と予測可能性

この時代は、Google 検索や Gmail などのプロダクトを利用する全ての人々に対し、世界中で均質で予測可能なパフォーマンスと低遅延を提供することに焦点が当てられていました。 この目標を達成するために、世界初の SDN バックボーン、世界初の SDN データセンター、帯域幅管理システム、そして SDN コントローラーといった革新的な技術が開発されました。
自分自身の記憶を辿っても、当初はダイアルアップによるインターネットアクセスから ISDN、ADSL とすごい勢いでインターネットインフラの進化を感じられたときでした。

第2の時代:ストリーミングへの対応

YouTube などのアプリケーションの登場により、ストリーミングビデオがインターネットトラフィックの大部分を占めるようになりました。このトレンドに対応し、ユーザーが高品質で低ジッターな動画体験を得られるように、新しいキャッシュ、SDH(Synchronous Digital Hierarchy。通称 Espresso)、そしてQUICやBBRのような新しいトランスポートプロトコルが導入されました。
当時、インフラには詳しくなかったので、プロトコルなどはあまり意識していなかったですが、一昔前では考えられないくらいで、インターネット上で動画閲覧が可能になってきました。

第3の時代:パブリッククラウドのニーズへの対応

パブリッククラウドが浸透した結果、複数のユーザーによるリソース共有、いわゆるマルチテナントの実現のため、セキュリティなどの要件が増えてきました。これらのニーズに応えるために、SDN、セキュリティプロトコル PSP、gRPC、そして Swift による輻輳制御などのイノベーションが導入されました。

AI によるさらなる進化

ここまでも目まぐるしい進化を遂げてきたネットワークですが、AI はネットワークに対しても次の時代へ導いています。

AIは変革的なテクノロジーであり、Google と Google Cloud は、あらゆるプロダクトに AI の力を導入しています。過去12ヶ月間だけでも、AI アプリケーションによるコンピュートとアプリケーションの利用は5倍に増加し、AIモデルのトレーニングと推論に必要なコンピュート能力は8.5倍に成長、さらにJio交換容量は15倍に増加しています。
第1から3の時代同様、ニーズを満たすことができるネットワークである必要があります。
このような大規模なAIモデルのトレーニングや、要求の厳しいファインチューニング、推論アプリケーションの実行には、膨大なコンピューティングパワーが必要となり、その基盤となるハイパースケールコンピューティングを支えるネットワークには、これまでとは異なる新たな課題が生まれています。

例えば、AI モデルのトレーニングにおけるトラフィックパターンは、従来のものと異なり、その予測も難しいようです。AI システムにおいては高トラフィックを要することもあり、ネットワークがボトルネックになりかねません。
また、コンピュートリソースも大量に使用するため、ネットワーク障害によるコストインパクトも大きいです。
セキュリティはここでも重要です。

Google はこれらの課題に対応すべく、4つの基本原則のもとにネットワークを再構築しています。

指数関数的なスケーラビリティ (Exponential Scalability)

従来のネットワークのように単に高速で大容量なネットワーク要素を導入するのではなく、Googleのファブリックアーキテクチャからヒントを得たマルチシャーディングネットワークアーキテクチャを採用しています。需要の増加に応じて新しいシャードを追加することで、非常に柔軟なスケーリングを実現します。また、複数の独立したデータプレーン、インストールプレーン、管理プレーンを持つシャードは完全に分離されており、単一のネットワークとしてアプリケーションから透過的に利用できます。

オンラインでの信頼性 (Online Reliability)

単なる稼働率の向上だけでなく、予測可能で高速な通信時間、アプリケーション全体での安定したパフォーマンス、そしてきめ細かい回復力を提供することを目指しています。
そのために、保護ルーティング(Protective Routing)という革新的な技術を導入しています。これは、ネットワーク障害が発生した際に、送信元のホスト自身がパケットヘッダーの数ビットを変更することで、数ミリ秒以内に別のパスにトラフィックを切り替えることができる技術です。これにより、ユーザーはネットワーク障害を意識することなく、サービスを継続利用できます。また、ソフトウェアのリリースにおいても、「Never Software」という仕組みにより、問題のあるソフトウェアがリリースされた場合でも、影響を受けたシャードを瞬時に切り離し、他のシャードにトラフィックをフォールバックさせることが可能です。

プログラマビリティ (Programmability)

中央集権型のコントローラーとAPIを備えたネットワークにより、顧客はきめ細かいレベルでネットワークの意図をプログラムできます。例えば、特定のアプリケーションのトラフィックを特定のネットワークパスに固定したり、地理的な制約に基づいてトラフィックの経路を制御したりすることが可能です。

自律性 (Autonomy)

過去10年以上にわたる自動化への取り組みをさらに進化させ、真に自律的なネットワークの構築を目指しています。2017年以降、ネットワークの変更は意図モデルの変更によってのみ行われ、人手による介入は一切ないとのことです。素晴らしい!さすが SRE の生みの親という気がします。

また、これらの実現のために、BT Group とのパートナーシップが生かされているとのことです。

まとめ

このセッションでは、ネットワークにおける第1から3までの進化の背景と概要、そして AI によってもたらされた第4の時代の内容を知ることができました。
全ての時代を経験した自分としては、その裏側を知ることができたセッションであるとともに、AI の時代を裏で支えてきたネットワークの存在が目から鱗でした。
第1から3までの爆発的な進化を遂げてきたネットワークを持ってしても、AI を支えるには再構築が必要だったことも驚きでした。