2023年6月27日

曖昧さを排除する

先日発生した、JR東日本のSuicaの大規模トラブルの原因が、電源工事のミスだったという記事。手順書に記載された手続き(ブレーカーの切断)に誤記があり、対象プレーカーが設置されている配電盤名が違っている事に気がつかず、別の場所の配電盤無いのブレーカーを切断してしまい、それがシステムサーバーへの電源供給を止める結果になったためらしい。


これ、二つの問題が見過ごされてしまったために発生したトラブルですよね。一つの問題はマニュアルの誤記。本来「配電盤名(盤NO6)」と略語「CV6」は一致していないといけないものが「盤NO6 (CV4)」と誤記されていたのに気がつかなかった、あるいはそれを問題と認識しなかったこと。二つ目の問題は、操作対象配電盤の指定が間違っているのに、それを単なる記載間違いと勝手に解釈して、しかも悪い事に間違った盤(CV4)を操作してしまったこと。 完全にヒューマンエラーの連鎖が今回のトラブルの原因だと分かります。

じゃぁ対策と言うか、こういうエラーを直前で回避するためにはどういう対策が必要だったか。自分がもし責任者だったら、次の2点をまずは対策するかな。一つは、マニュアル作成時のレビューを徹底すると共に、もし何か疑問点や今回の様な不整合な記述が有った場合は、自分で判断せずにチームリーダーとか管理者に必ず確認するという、例外処理を徹底すること。実際ブレーカーを切断する担当者は、言われた通りの事しか出来ないかもしれないけれど、専任者であれば操作する配電盤はCV6であると分かっているだろうから、問い合わせた時点で「いゃちがう」と支持出来たんじゃ無いだろうか。二つ目の対策は、その配電盤無いのブレーカーにも管理番号(52L)が振られて表示されているならば、指示の所にも明確に「配電盤CV6内部の、ブレーカー54Lを切断する」とまで記載すれば、仮に配電盤を間違っても最後の対象ブレーカーの番号が違うことで、そこで操作を言ったん保留したかもしれない。少なくとも後者のブレーカーレベルまでのナンバリングは必要だろうなぁ。

私も、こういう手順書みたいなものは昔からよく仕事で担当していて、フローなんかも嫌というほど作らされたものですが、一度作成した手順は、間違いや例外対応など実際にその場所で仮に操作してみて検証したりするもの。ただ、実際にトラブルの状況を再現して操作することはなかなか出来ないので、どうしても空想(エアー)で手順を追いかけたりすると、そこで無意識に手順を飛ばしてしまったり、空見じゃないけれどつい見逃してしまうこともあるんですよね。だから、複数の人間が異なるタイミングで手順を検証することが一番望ましいけれど、その分時間も人手もお金も掛かるので、なかなか最近では難しいだろうなぁ。今回のトラブルはかなり大規模なトラブルでしたが、その原因となるとこんなに些細なことであるのは良く有る話で、だからこそこう言う基本的な部分を蔑ろにしていけないという、昔から有る大きな教訓を改めて認識したと言えますね。

0 件のコメント:

コメントを投稿