EC2起動不能からの復旧記録

先日、サーバーメンテナンス時に細かな不具合が発生し、EC2の起動ができなくなったのですが、原因がわかり、少し強引にですが対処した際の記録になります。

他のメンバーからの報告で、再起動しても、AMIから復旧しようとしても起動しない、さらに起動しても接続できないとのことだったので、Management Consoleから System Log を確認すると以下のメッセージが出ていました。

*** ファイルシステム検査中にエラー
*** シェルに移行します、システムは再起動します。
*** シェルから抜ける時。
Give root password for maintenance
(or type Control-D to continue):

エラー発生しているのはrootボリュームではなくデータ専用ボリュームだったのですが、入力待ち状態のため正常起動せず /etc/fstab も書き換えられない状態でした。そこで、手順を下記にまとめてみました。

該当インスタンス停止
rootボリュームを detach（デバイス名をメモ、/dev/sda1だと思います。）
rootボリュームを同じAZ内の他のインスタンスへ attach
他のインスタンス、適当な位置に mount

vi で fstab を編集し不具合のあるボリュームの行をコメントアウト
（起動時に mount/fsck 対象としないようにする）

/dev/sda1 / ext3 defaults 1 1
none /dev/pts devpts gid=5,mode=620 0 0
none /dev/shm tmpfs defaults 0 0
none /proc proc defaults 0 0
none /sys sysfs defaults 0 0
/dev/sda3 swap swap defaults 0 0
# /dev/sdf1 /home ext3 defaults 1 1

rootボリュームを umount
rootボリュームを detach
該当インスタンスに attach（デバイス名に注意）
インスタンス起動
起動できたら不具合のあるボリュームを調査し修復

ボリュームの不具合は結局スーパーブロックが飛んでいたようで、データそのものは安全でした。
（もし、Amazon純正のAMIを利用していたら、こんなに苦労しないのでしょうか。）
AWSが便利過ぎて気が抜けていたのが見透かされていたかのように発生した不具合でした。

今回のことで、再度姿勢を正すきっかけになりました。ありがとうございました。

こちらの記事はなかの人（klog）監修のもと掲載しています。
元記事は、こちら

この記事を書いた人

後藤和貴

執行役員 / エバンジェリスト。外向けにはイベントや勉強会などで講演する役割。社内ではマーケティング全般と新商品企画やPR戦略などを担当しています。後藤和貴が書いた記事

EC2起動不能からの復旧記録

【猫の日特別企画】アイレット社員の愛猫写真集〜“うちの子の奇跡の一枚”集めました！〜

面倒くさいを解消！「Felo」を使用したAI検索について

Google Cloud 認定資格のグッズ申請をしてみた

NotebookLM Plus で議事録を安全に自動作成＆チャットボット化しよう！

【社内イベント】極寒のスキー・スノーボードツアー in 湯沢

EC2起動不能からの復旧記録

関連記事Related Articles

Dockerってなんじゃ？

Splunkってなんじゃ？（IISのログをSplunkで解析）

JAWS-UG宮崎勉強会および集まりやすいということ

Chefってなんじゃ？

cloudpackブログ週刊レビュー 2014/02/03