ファーストサーバー障害情報
平素は格別のご高配を賜り厚く御礼申し上げます。
この度のサーバートラブルの件では皆様に多大なるご迷惑、ご心配をおかけし誠に申し訳ございませんでした。あらためて心より深くお詫び申し上げます。
これまでの状況を再度把握し直し整理いたしまして、今後の対策の策定をとりまとめました。
トラブルの経緯
2012年6月20日17時頃、突然www.mamail.jpへのアクセスが全くできない現象を確認しました。社内ネット環境に異常が無いかをチェックし、弊社のサーバー会社であるファーストサーバーへの問い合わせを行ないました。当初は回線異常ではないかと想定しておりましたが、ファーストサーバーへの問い合わせは混雑のため長時間不通となっており原因が判明せず、数時間後に通じた時に「すべてが消失した」旨を確認しました。
ファーストサーバーはこの時点までの説明を以下のサイトで行っております。
http://support.fsv.jp/urgent/report.html
要約いたしますと、特定のサーバーに対しメインテナンスプログラムを実施したところ、そのプログラムにミスがあり、すべてのサーバーに対して実行されてしまい削除されてしまったということ。また、バックアップされているデータに対してもメインテナンスを行う仕様になっていたため、すべてのバックアップデータも削除されてしまったということです。さらに削除されてしまったデータを復元する作業手順に不備があり不適切な復元データが提供されてしまったということになります。
弊社では早期から復旧方法の検討を行なっておりました。最良の手段はファーストサーバーが保有している2重のバックアップが復旧も素早く、一番間近なデータであることから頼りにしておりました。しかし、バックアップもすべて消失していることと、弊社だけではなく5,000社以上が被害に遭っていることをその時点で認識。データの復元を行なったとの連絡があり、復元されたデータをチェックしてみると一部文字化けしている等状況が散見されましたので、弊社が深夜に行なっている遠隔バックアップからの復旧を決断し、その準備に取り掛かりました。ファーストサーバー自体が大きく混乱しておりましたが、とにかくハードウエアの復活を強く要望いたしました。しかしながら、サーバーマシンは初期化されてしまっているような状態で、実際にネット上で実稼働できることが確認できたのが翌21日朝でございました。
翌21日朝よりシステム及びデータの復旧作業を開始しましたが、遠隔により大量のデータを転送しなければならなかったため、長時間を要しましたが夕方には転送を終了。マメールのシステム本体や転送されたデータに関するあらゆるチェック作業を行ない、21時に稼働開始となりました。
弊社の対応
5,000社分のサーバーが一度に使用不能に陥るという前代未聞のトラブルの発生に弊社もかなり動揺いたしました。ファーストサーバーは、過去11年間一度も大きな障害を発生させていない弊社が最も信頼するサーバー会社であっただけに、このようなトラブルが発生いたしましたことについては残念でしかたありません。マメールをご利用の皆様におかれましては今回のトラブル発生により、管理操作が全くできないばかりか会員の皆様への対応など多大なるご迷惑をおかけしてしまい深くお詫び申し上げます。また、サーバー機能が完全に失われたことにより、弊社と皆様とのご連絡方法がお電話のみとなってしまい、現在の状況をご報告させていただくことができず大変なご迷惑をおかけしてしまいました。
今回唯一救われたことは、ファーストサーバーのバックアップ以外に危険分散の目的で自社でバックアップを毎日行なっていたため、これらのデータが修復に大きく役立ったことでした。しかしながらすべてのシステムやその環境設定、お客様の全データを転送によって復活させることができるまでに8時間以上を必要とし、その後動作確認等を行なって完全にお客様にサービスをご利用いただけるまでに合計で12時間近くを必要としてしまい、皆様に長時間にわたってお待ちいただかなければなりませんでした。
今後の対策
今回のような大規模な障害は弊社といたしましても初めての経験であり、完全に想定できていたかと問われますと、認識の甘さは否めません。バックアップ態勢をファーストサーバーも含め3重化していたことだけが唯一の救いでありましたが、管理会社であるファーストサーバーの人為的なミスで2つのバックアップが瞬時に完全に消失してしまいました。
やはり、お客様のデータを完全に守る義務は管理会社にあるのではなく、弊社にあるということを強く再認識いたしました。危険分散の概念を今まで通りに貫き、必要なすべての情報のバックアップを取得して安全な場所に保管しておく必要性があると感じております。また、障害発生時でもお客様とのコミュニケーションが行なえるよう、緊急時ご案内ページを設置して詳細なご案内を逐一掲示できるようにしてゆきます。
今回の障害回復作業で一番の問題は回復作業時間でありました。バックアップ時間及び回復時間ともに性能を向上させるため、新たなバックアップ体制を構築いたします。この新しいバックアップ体制により目標といたしまして、今回のようにすべてが消失したとしても2/3以下の時間で回復できるように設計構築して運用し、障害回復訓練もしていきます。
今回の大規模障害を発生させたファーストサーバーを今後も利用し続けるのかどうかという議論もあるかと存じます。弊社も様々なサーバー環境に関わってまいりましたが、過去11年間ほとんど障害なく稼働させてきた実績は大きく、比類無きものであると思います。今回の大規模障害において早い段階で第三者による事故調査委員会を設置し、今月末には詳細な最終調査報告書が公開されることになっております。これにつきましては皆様にもお知らせいたしますが、弊社といたしましては国内でこれだけの性能のサーバーで且つ多重化された強固な通信環境を併せ持ったサーバーサービスは他になく、最終調査報告書の公開を待って最終判断をしたいとは考えております。
弊社のシステムマメールは皆様に携帯メール連絡網の利便性を極力廉価にご提供させていただけるよう様々な工夫をして維持管理してまいりました。今回のようなサーバートラブルに限らず、複雑なインターネット回線網や電話回線網、無線アンテナ基地局や携帯電話会社のトラブルなど、マメールのシステムが非常に多様で複雑な設備環境に大きく依存している以上、今後もその影響を強く受けてしまうことは避けることができません。このような状況下におきましても、今後システムやその環境を堅牢に維持できるようにしていくために最大限の努力をし、且つ継続していくことを皆様にお約束いたします。
最後に、今回のトラブルに関しましてご迷惑、ご心配をおかけいたしましたことを伏して深くお詫び申し上げます。
有限会社オムニシステム
代表取締役 野村良平
- 日本で起きた災害
- BCP(事業継続計画)