はじめに
私は以前、オンプレミス環境のインフラエンジニアとして働いていました。
現在はお客様のインフラ環境の運用監視を行っていますが、クラウド環境をメインで携わるようになって、対応の差を大きく感じる場面のひとつが「ディスク障害」です。
クラウド環境、たとえばAWSを利用している場合、ディスクの交換を意識することはほとんどありません。障害が起きてもAWS側で対処されるため、利用者が何かする必要は基本的にないからです。
ところが、オンプレミス環境ではそうはいきません。
本記事では、オンプレミスでディスクが壊れたときに実際どんな作業が発生するのかを、クラウドとの比較を交えてご紹介します。
AWSの場合:特に意識することなく完了している
AWSのストレージサービス(EC2にアタッチするEBSや、オブジェクトストレージのS3など)では、裏側でデータが自動的にコピー・保護されています。
物理的なディスクに問題が起きた場合でも、AWS側で対処が行われるため、利用者側で何か作業をする必要は基本的にありません。
ディスク交換という作業そのものを意識する場面は、クラウドではほぼないと言ってよいでしょう。
オンプレミスの場合
オンプレミス環境でディスク障害が発生すると、担当者は準備から後片付けまで一連の作業を自分たちで進めていくことになります。
ここでは、実際の流れをステップごとにご紹介します。

ステップ1:障害の検知と状況の確認
監視ツールからディスク障害のアラートを受け取ったら、まずは状況を確認します。
どのサーバーの、どのディスクに問題が起きているのかを把握し、サービスへの影響範囲を確認します。
ステップ2:交換用ディスクの手配
次に、交換用のディスクを準備します。
保守契約を結んでいれば、ベンダーに連絡して交換品を手配します。
契約がない場合は、自分たちで同じ規格のディスクを用意する必要があります。
ディスクが壊れた状態が長く続くとリスクが高まるため、なるべく早めに動くことが大切です。
ステップ3:ディスクの受け取りと確認
交換用のディスクが届いたら、届いたものが正しい製品かどうかを確認します。
型番や容量が合っているか、外観に問題がないかなどをチェックします。
ステップ4:データセンターへの入館
オンプレミスのサーバーはデータセンターに設置されていることが多く、作業を行うには入館の手続きが必要です。
事前の申請や、当日の本人確認、持ち込む機材の申告などが求められます。
ステップ5:ディスクの交換作業
データセンターに入ったら、サーバーが入っているラックを開けます。
施設のスタッフに開けてもらう場合もあれば、鍵を借りて自分で開ける場合もあります。
ラックを開けたら、まずはディスクのランプを確認します。
障害が発生しているディスクはランプの色や点滅で判別できるので、管理ツールの情報と照らし合わせて対象のディスクを特定します。
確認ができたら、古いディスクを取り外し、新しいディスクを取り付けます。
RAID構成の場合、間違った場所のディスクを抜いてしまうとデータに影響が出る可能性があるため、ここは慎重に作業します。
ステップ6:データの再構築を待つ
新しいディスクを取り付けると、RAIDの再構築(リビルド)が始まります。
この処理はディスクの容量によって時間が変わりますが、数時間以上かかることもあります。
リビルドの進捗はリモートから確認できることが多いので、状況を見守りつつ次のステップに進みます。
ステップ7:退館と作業の記録
データの再構築が順調に進んでいることを確認できたら、ラックを施錠し、データセンターの退館手続きを行います。
ステップ8:故障ディスクの処理
忘れてはいけないのが、持ち帰った故障ディスクの取り扱いです。
中に業務データが残っている可能性があるため、社内のルールに沿って適切に処分する必要があります。
交換作業の報告書を作成し、いつ・何をしたのかを記録として残しておくことも大切です。
これで一連の対応が完了となります。
比較表
| 項目 | AWS | オンプレミス |
|---|---|---|
| 障害の検知 | 意識不要(AWS側で対処) | 監視ツールで検知 |
| ディスクの用意 | 不要 | 自分たちで手配 |
| 物理的な作業 | 不要 | 現地で実施 |
| データセンターへの移動 | 不要 | 必要 |
| データの再構築 | 意識不要 | 数時間以上かかることも |
| 担当者の作業時間 | ほぼなし | 半日〜1日以上 |
おわりに
こうして書き出してみると、オンプレミスのディスク交換は本当に工程が多いことがわかります。
検知から始まり、手配、移動、物理作業、そして後処理まで——担当者が走り回って、ようやく1本のディスク交換が完了します。
クラウド環境では、こうした作業のすべてをクラウド事業者側のスタッフが担ってくれています。
普段は当たり前すぎて気づきませんが、オンプレミスの対応を振り返ると、改めてそのありがたさを実感します。
AWSには「責任共有モデル」という考え方があります。
物理的なインフラの管理はAWSが責任を持ち、利用者はその上で動くサービスやデータの管理に集中するという役割分担です。
ディスク交換のような物理レイヤーの対応をAWSに任せられるからこそ、私たちはお客様が本来やりたいこと——サービスの開発や改善により多くの時間を使うことができます。