10月1日の朝から発生した、東京証券取引所のシステムトラブル。前代未聞の、前日取引停止となり、その影響はかなり深刻。当初はサイバー攻撃も疑われたけれど、今の所使用機器の物理的障害が引き金になったらしいのだけれど、例によってバックアップがちゃんと動作しないのは、開発元の富士通の責任も大きいような気がするなぁ。
昨晩会見があって、結構詳しい説明がされたらしいのですが、共有ストレージの1号機内のメモリー故障が引き金になりシステムトラブルが発生。本来ならは、バックアップの2号機にストレージが切り替わるはずが、それが切り替わらず問題が解消されなかったとのこと。「共有ストレージ」と言っていても、実蔡はストレージ(HDD/SSD)を大量に内蔵している「コンピューター」なので、そのシステムメモリーが故障したということなんでしょうね。本来なら、システムトラブルが発生したら、アラートが上がって、それを受けてホットスタンバイしているはずのバックアップ機に制御なりストレージなりは切り替わるはずなんですが、アラートが上がるまでも無くダウンしたんだろうか。Windows系OSで言えば、突然BSoDで死んでしまうような感じ。昔のパソコンだと、メモリーのECCエラーとかパリティーエラーで死ぬというのは良くあったけれど、流石に共有ストレージなら、冗長化もされているだろうし。
システム設計、特にこのような重大なミッション用のシステムとなると、かなり色々なトラブルを想定して冗長化したり多重化しているはずですが、今回はその想定外のトラブルだったんだろうか。仮に、大元のシステム(ハードウェア)のシステムメモリーが突然トラブルで動作停止したとなると、流石に色々な多重化や冗長化していても、直ぐにホットスワップ出来るか厳しいとは思うけれど。車で言えば、例えばタイヤがパンクした場合なら、難しいけれどそれなりにハンドル操作も出来るし、ブレーキも掛かるかもしれないけれど、今回の場合はパンクどころかいきなりタイヤが消える、場合によっては車のシャーシが消えるみたいな感じですからね。
富士通としても、もずは代替機の手配で、これは日本中から探し回ってかき集めるんだろうけど、特殊なシステムだったりしたら大変だろうなぁ。今回トラブルを起こした、メモリー交換だけでは済まないだろうし、そのメモリーソケットが乗っているマザーボードや、場合によってはシステムまるごと取り替えなんて言う事も。その場合は、内蔵HDD/SSDも変わるから、データをリロードしてバックアップと整合性を図らなきゃいけないだろうし。さらには、一日停止しているわけだから、どこからリスタートさせるのか、停止直前とリスタート直後のデータ整合性も問題になりそうだし。多分関係者の皆さんは、昨日は一日大変で、多分朝まで作業していたんだろうけど、健康にだけはご自愛いただきたいですね。とは言っても、日本経済の屋台骨なわけだからなぁ。
0 件のコメント:
コメントを投稿