Cloud Run に負荷試験するときに気をつけたいこと

はじめに

この記事では、Cloud Run を利用したアプリケーションの負荷試験における学びと、ボトルネックになった箇所を共有します。

前提

実際のものからは少し省いてる箇所もありますが、下図のような構成となります。

ボトルネック部分に関する今回のポイント

Cloud Run はフロント部分としてもちろん重要で、スケールはある程度自動でやってくれる部分に期待していました。
VPC にあるリソースとの通信が発生するため、NW 周りも実は重要であり、ボトルネックになるポイントでした。
それぞれざっくり見ていきます。

Cloud Run の設定

主要ポイント

1コンテナあたりの最大接続数: 同時接続数が多くなると、コンテナあたりのリソースを多く使用しレスポンスタイムの劣化を引き起こす可能性があるため、この数値を適切に設定することが重要で、多すぎず、少なすぎない値になるべくする必要があります。
1サービスあたりの最大/最小コンテナ数: 最小コンテナ数は通常アクセスをさばける程度のコンテナ数量とし、最大についてはアクセス数などから想定するか、負荷試験などで確認する必要があります、そのうえで、範囲を適切に設定し、コストとパフォーマンスのバランスを取ります。

補足

CPU ブースト: 突発的なトラフィックの増加に対応するため、Cloud Run は CPU リソースを一時的に増加させることが可能で、この機能を有効化し負荷試験のスケール速度など見てもよいかな、と思います。

NW 関連の設定

主要ポイント

Cloud NAT のポート数: 実はこのような設定があり、アウトバウンドに影響します。この点以降で少し触れます。
サーバーレス VPC アクセスコネクタ: 実はこちらもインスタンスタイプの設定が必要です。

補足

Direct VPC Egress: 今だと GA しているこの機能は当時は GA していませんでした。こちらを利用すると、遅延を最小限に抑えつつ、VPC 内のリソースへ直接アクセスできますが、IP アドレスの考慮などが必要になります。

主要ポイントを中心とした発生事象と対策

上記したようなポイント部分に対して実際に発生した事象と、それに対して行った対策について記載します。

Cloud Run の設定

事象: 1コンテナあたりの最大接続数が多すぎたため、メモリ不足が発生
対策: CPU や同時接続数ではスケールしてくれますが、メモリ使用率ではスケールしてくれません。メモリいっぱいになりながら応答できず、同時接続数になるまで待つことしかできません。そのため、アプリケーションの平均的なメモリ消費と最大接続数を把握し、それに基づいて接続数を調整する必要があります。
参考URL: Cloud Runのスケーリングとメモリマネジメント

NW 関連の設定

事象1: Cloud NAT のポート数不足になり、アウトバウンドでパケットロスが発生
対策1: Cloud NAT の設定で動的ポート割当を有効にし、インスタンスあたりの最小ポート割当を増やし、最大ポート割当を設定することで、より多くのポート割当が可能になり、パケットロスが解消しました(なおNATを利用する VM 数によっては注意する必要がありますポート割当数を計算しましょう)。実際の事象発生有無は以下のように Cloud NAT のモニタリングからメトリクスの確認可能です(画像はサンプルとなります)。

参考URL: Cloud NATのポートとアドレス管理

事象2: サーバーレス VPC アクセスコネクターのリソース不足
対策2: インスタンスタイプが低すぎたため、CPU が100%張り付いていました。そのため、実際のトラフィックに基づいて、インスタンスタイプを調整し、解消しました。実際の事象発生有無は以下のようにサーバーレス VPC アクセスのコネクタの詳細からメトリクスの確認可能です(画像はサンプルとなります)。

まとめ

Cloud Run は運用しやすさで選定される面は多いですが、スケールなどで最大の効果を得るためには、適切な設定が必要になることが理解しました。
どんな条件でもスケールするわけではなく、スケールするためには条件があるので、それを理解したうえで、設定する必要があります。
Cloud Run や CloudSQL といったメインのコンポーネントに意識がいきがちですが、VPC を介した通信や、コネクタとしているリソースの状況にも目を配り、状況をモニタリングすることが必要だな、と感じました。
Cloud Run を利用する場合、似たような構成を取るパターンは多いかと思うので、今後も気をつけたい点だな、と思いました。

この記事を書いた人

齋藤寛隆 AWS、Google Cloud のインフラに関する設計、構築、運用をしています。最近は Google Cloud にふれる機会が多く、記事は Google Cloud が多くなりそうです。新しめの機能やサービスを中心に書いていこうと思います。AWS を使ってる人は Google Cloud に対する敷居を、Google Cloud を使ってる人は AWS に対する敷居を下げられるような記事も書ければと思っています。
趣味はキャンプと清掃員です。齋藤寛隆が書いた記事

Cloud Run に負荷試験するときに気をつけたいこと

はじめに

前提

ボトルネック部分に関する今回のポイント

Cloud Run の設定

主要ポイント

補足

NW 関連の設定

主要ポイント

補足

主要ポイントを中心とした発生事象と対策

Cloud Run の設定

NW 関連の設定

まとめ

AWS アクセスキー漏洩対策ガイド〜原因から調査、対応方法まで解説〜

Figma AI ほぼ全機能使ってみた

Arduinoを初めて使う時のセットアップと実例集

アイレットで、未来を創る若きリーダーたちが語る挑戦と同期の絆

2025年度版！AWS資格取得の順番について！

Cloud Run に負荷試験するときに気をつけたいこと

はじめに

前提

ボトルネック部分に関する今回のポイント

Cloud Run の設定

主要ポイント

補足

NW 関連の設定

主要ポイント

補足

主要ポイントを中心とした発生事象と対策

Cloud Run の設定

NW 関連の設定

まとめ

関連記事Related Articles

Cloud Run から VPC 内リソースへの接続方式：Serverless VPC Access connector vs Direct VPC Egress

Cloud Run から VPC へ直接アクセスできる Direct VPC Egress がプレビューリリースされました

Cloud Run の予期せぬ事象の振り返りと対策

グッドスマイルカンパニー様事例に関する技術解説（構成編）

最近の Cloud Run のアップデートまとめ