11:43 - 12:43頃に障害発生 社内のシステムアラートで大量のアラートが流れていることで検知 オンランMTGに緊急で集まり、緊急対応が始まった。
大量のエラーにより、影響範囲や事象特定を冷静に行うことも難しく、顧客影響も大きく、即時の決断が何度もチームに求められた。
サービスをメンテナンスに入れるか、ユーザーへの周知はどうするか、認識している情報から影響範囲を予測し、各システムの最速・最善の復旧方法を模索し、1時間程度で一通りの復旧が実現できた。
仲間と共に手に汗握る復旧劇だった
This is my blog.