はじめに
2025/8/17,8/25に国立研究開発法人理化学研究所様における Google Cloud を利用した 専用線及び VPN 接続によるハイブリッドマルチクラウド環境、Nextflow 実行環境の導入事例が公開されました。
- 専用線接続および VPN 接続でセキュアな通信を実現! オンプレミス×マルチクラウドのハイブリッド構成による医科学研究向けデータ通信基盤構築
- Google Cloud とオンプレミスを連携させたデータ分析基盤構築で Nextflow をセキュアな環境で実行可能に!
アイレットはインフラ構築について支援させていただきました。
当該記事はインフラ構築の裏側について解説する記事となります。
今回は 2つの事例でご紹介させていただいた全体構成を解説します。
事例に関連するその他記事はこちら:
今回のプロジェクト内容
理化学研究所様からの要望として以下がございました。
- 機密データを外部に情報が出ない形で Google Cloud 内の安全に取り扱いたい
- 利用者様が Google Cloud 内のデータを扱う場合には仮想デスクトップ経由で扱いたい
- 定期的にデータをアップロードする必要があり、そのデータをお客様 DC 拠点からアップロードしたい
- Nextflow から nf-core と呼ばれるパイプラインの実行リソースのスペックを柔軟に調整したい
それぞれ以下のサービスを用いることで、ご要望を満たすことができたと考えております。
構成
各要件及び挙げたサービス項目から以下の通り構成しております。
Google Cloud サービスの利用
利用者共通での Nextflow によるパイプライン実行環境の整理
Google Cloud で利用者様共通して、パイプライン実行環境を構築するために以下の Google Cloud サービスを主軸に利用しております。
- Cloud VPN
- Private Service Connect
- Cloud Workstations
- Cloud Batch
Cloud VPN を利用し、他パブリッククラウドとのプライベートな通信を可能にしております。Private Service Connect を利用することで、Google Cloud の API への通信に内部ネットワークで行える仕組みとしており、これによりインターネットアクセスせずに接続できる環境を実現しております。
利用者共通のパイプライン実行環境
Cloud Workstations を利用することで、利用者様が共通して利用可能な、Nextflow 実行環境を提供しております。また、インターネット接続を制限している環境で構築されているため、機密データが保存されている、Cloud Storage へのアクセスも安全に行え、データ漏洩のリスクを低減した構成となっております。
柔軟なリソース提供ができるパイプライン環境
Cloud Workstations 上でカスタムコンテナを起動し、コンテナ内に Nextflow を導入し、nf-core を利用して実行指示ができる環境を提供しております。その分析の実行を Cloud Batch を利用して行っており、指示内容に、vCPU数、メモリ数、実行する VPC 環境など、様々なパラメタを調整できるような作りになっており、Google Cloud 上のスペックを柔軟に調整することが可能となっております。
お客様ご利用 DC からデータアップロード環境整理
Partner Interconnect を利用し、閉域経由で DC からデータをアップロードできる状態となっております。また、こちらでも Private Service Connect を経由しアクセスできる状態となっているため、Google Cloud の API を実行時も プライベート通信が行える状態となっております。
構成に関するコメント
構成の中の大きな推しポイントとしては、他パブリッククラウド及び DC からの通信も含めてプライベートな通信環境を提供した構成であること、パイプライン実行にあたって柔軟なリソース調整ができること、と考えております。機密データを扱うため、許可した宛先のみへのインターネット接続とし、容易に外部からアクセスできない状態を作ることを意識し、VPN 接続や 専用線を駆使し、実現したプライベート通信主体の構成となっております。その要件に合わせて、Private Service Connect を各拠点から利用できるような状態とし、Google Cloud の API 実行においてもインターネットにでない構成となっております。Nextflow 内で Google Cloud のプラグインも提供されていることから、Cloud Batch で柔軟なリソース調整ができるようになっていることもあり、今回の構成が実行したいこととかなりマッチした内容になっており、既存でオンプレミスでは柔軟なリソース調整が難しかった点を解消できたことで、通信だけでなく、分析環境においても、Google Cloud を利用したことのメリットになったのではないか、と考えております。