Professional Data Engineer試験では、機械学習ワークフローの設計について問われることがあります。その際によく出てくるのが「Vertex AI Pipelines」と「Cloud Composer(Airflowマネージド版)」の違いです。両者ともタスクをオーケストレーションするサービスですが、どちらを使うかの判断基準は試験中に混乱しやすいポイントです。私自身も勉強中に「結局、どちらでMLパイプラインを作るべきなのか?」と迷いました。本記事では、PDE試験対策時点の理解を整理します。なお、Vertex AIは機能拡張が頻繁に行われる領域なので、最新情報は必ず公式ドキュメントを確認してください。
なぜPipelinesとComposerで迷うのか
- どちらも「DAG(有向非巡回グラフ)」構造でタスクをつなぐ
- データ処理やモデル学習の一連の流れを自動化できる
- 名前だけ見ると両方とも「MLパイプラインを作れる」と思ってしまう
試験対策では、この曖昧さを「ML特化か汎用か」という視点で切り分けるのがポイントです。
Vertex AI Pipelinesの特徴
MLワークフローに特化
Vertex AI PipelinesはKubeflow Pipelinesを基盤にしたマネージドサービスで、データ前処理・学習・評価・デプロイといった機械学習特有のタスクを扱うのに適しています。モデルやデータセットといったMLアーティファクトを追跡でき、MLライフサイクル全体を管理できます。
サーバーレスでの実行
ユーザーはDAGを書くだけで、実行環境はVertex AIが管理します。ログ、メトリクス、アーティファクトの管理も統合されているため、機械学習の試験問題では「再現性」「モデル追跡」がキーワードになったらPipelinesが正解です。
Cloud Composerの特徴
汎用的なワークフローオーケストレーション
ComposerはApache Airflowベースのマネージドサービスで、MLに限らずETL処理、データ連携、スケジューリング全般を扱えます。試験対策では「ML以外も含めて多様なシステムを統合する必要がある」「Airflowの既存コードを活用する」といった文脈ならComposerを選びます。
環境管理と拡張性
ComposerはGKEクラスター上でAirflow環境を管理します。Vertex AIのようにMLに特化した便利機能はありませんが、自由度が高く、外部システムとの連携や複雑なスケジューリングが可能です。
試験での判断基準
- MLライフサイクル管理、再現性、モデル追跡 → Vertex AI Pipelines
- 汎用ワークフロー、ETL統合、Airflowの活用 → Cloud Composer
- ML以外も含めて全社的にワークフローを統一 → Composer
- 試験問題に「ML」「モデル」「アーティファクト」が出たら → Pipelines
一次情報リンク:
– Vertex AI Pipelines: https://cloud.google.com/vertex-ai/docs/pipelines/introduction
– Cloud Composer: https://cloud.google.com/composer/docs/concepts/overview
実務と試験での違い
実務ではPipelinesとComposerを併用するケースもあります。例えば、Composerで全体のスケジューリングを管理し、その中のML処理だけをPipelinesに任せる設計です。試験ではそこまで複雑なシナリオは出ませんが、「ML特化か汎用か」という切り分けさえ押さえておけば正解にたどり着けます。
まとめ
PipelinesとComposerの違いは「MLライフサイクルに特化しているか」「汎用ワークフローか」に集約されます。PDE試験で迷ったときは、問題文に出てくるキーワードをヒントに選びましょう。この記事は試験対策時点の整理であり、Vertex AIは機能追加が頻繁なので、必ず最新の公式ドキュメントで確認してください。