2019年8月28日

ダウンの理由

先日トラブルが発生した、AWS Tokyo Regionの事故原因がAmazonから発表され、冷却設備のトラブルから、サーバーのフェイルセイフもバグで失敗し、さらには手動操作も失敗してという、何か不幸がまとまってやって来たみたいな話にビックリ。

記事とその中で説明されている時系列の様子を眺めていると、一つは3rd Partyの設備との接続に問題があったことと、最後の砦のはずの手動操作がバグや操作ミス(?)で失敗が続いて、最終的に冷却操作に失敗したことが説明されていますが、うーん、最初に設備設計した時に分からなかったんだろうか。自社データだけで無く、お客様データを扱っているのだから、どういう風に設備試験したのか、一寸気になります。最終的には、今回の経験を元に"Lessons Learned"が蓄積されて、次回同じトラブルが発生しても、対策を取れるように訓練したようですが、当事者が居る間は良いんですよね。その管理者が異動とかして人材が変わったときに、その経験値が引き継がれるかが、次の課題でしょうね。

記事の中で、同様の大規模トラブルの例として、2年前のAzure東日本リージョンの例が書かれているけれど、そんなこともあったんですね。一寸自分の記憶には無くてビックリ。こちらも、データセンター内の冷却設備のトラブルから発生したようで、やはりサーバールームに関しては冷却設備が最重要機能だよなぁと再認識。自分が仕事で使っているオフィスビルのサーバールームも、ラック毎に温度センサーを設置して細かく管理しているけれど、なかなか大変なんですよね。さらに、自社ビルなら色々や利用もあるんだろうけど、うちのようにレンタルオフィスの中にサーバールームを作るとなると、空調も大変だし、データラインの引き回しも大変だし、早々サーバーラックの重さ対策で、床の補強なんかもやったし。

まぁ、自分が直接被害を受けたわけでは無いのでこう言う事も言えるんですが、AWSさんには今回の経験を生かして、より安全で使いやすい設備にして欲しいですよね。IT関係者は、節にそう思っていると思う。その期待を、次は裏切らないで欲しいなぁ。


0 件のコメント:

コメントを投稿