Professional Data Engineer試験では、機械学習ワークフローの設計について問われることがあります。その際によく出てくるのが「Vertex AI Pipelines」と「Cloud Composer(Airflowマネージド版)」の違いです。両者ともタスクをオーケストレーションするサービスですが、どちらを使うかの判断基準は試験中に混乱しやすいポイントです。私自身も勉強中に「結局、どちらでMLパイプラインを作るべきなのか?」と迷いました。本記事では、PDE試験対策時点の理解を整理します。なお、Vertex AIは機能拡張が頻繁に行われる領域なので、最新情報は必ず公式ドキュメントを確認してください。

なぜPipelinesとComposerで迷うのか

  • どちらも「DAG(有向非巡回グラフ)」構造でタスクをつなぐ
  • データ処理やモデル学習の一連の流れを自動化できる
  • 名前だけ見ると両方とも「MLパイプラインを作れる」と思ってしまう

試験対策では、この曖昧さを「ML特化か汎用か」という視点で切り分けるのがポイントです。

Vertex AI Pipelinesの特徴

MLワークフローに特化

Vertex AI PipelinesはKubeflow Pipelinesを基盤にしたマネージドサービスで、データ前処理・学習・評価・デプロイといった機械学習特有のタスクを扱うのに適しています。モデルやデータセットといったMLアーティファクトを追跡でき、MLライフサイクル全体を管理できます。

サーバーレスでの実行

ユーザーはDAGを書くだけで、実行環境はVertex AIが管理します。ログ、メトリクス、アーティファクトの管理も統合されているため、機械学習の試験問題では「再現性」「モデル追跡」がキーワードになったらPipelinesが正解です。

Cloud Composerの特徴

汎用的なワークフローオーケストレーション

ComposerはApache Airflowベースのマネージドサービスで、MLに限らずETL処理、データ連携、スケジューリング全般を扱えます。試験対策では「ML以外も含めて多様なシステムを統合する必要がある」「Airflowの既存コードを活用する」といった文脈ならComposerを選びます。

環境管理と拡張性

ComposerはGKEクラスター上でAirflow環境を管理します。Vertex AIのようにMLに特化した便利機能はありませんが、自由度が高く、外部システムとの連携や複雑なスケジューリングが可能です。

試験での判断基準

  • MLライフサイクル管理、再現性、モデル追跡 → Vertex AI Pipelines
  • 汎用ワークフロー、ETL統合、Airflowの活用 → Cloud Composer
  • ML以外も含めて全社的にワークフローを統一 → Composer
  • 試験問題に「ML」「モデル」「アーティファクト」が出たら → Pipelines

一次情報リンク:
– Vertex AI Pipelines: https://cloud.google.com/vertex-ai/docs/pipelines/introduction
– Cloud Composer: https://cloud.google.com/composer/docs/concepts/overview

実務と試験での違い

実務ではPipelinesとComposerを併用するケースもあります。例えば、Composerで全体のスケジューリングを管理し、その中のML処理だけをPipelinesに任せる設計です。試験ではそこまで複雑なシナリオは出ませんが、「ML特化か汎用か」という切り分けさえ押さえておけば正解にたどり着けます。

まとめ

PipelinesとComposerの違いは「MLライフサイクルに特化しているか」「汎用ワークフローか」に集約されます。PDE試験で迷ったときは、問題文に出てくるキーワードをヒントに選びましょう。この記事は試験対策時点の整理であり、Vertex AIは機能追加が頻繁なので、必ず最新の公式ドキュメントで確認してください。