システム運用コストについての再考

ファーストサーバで大規模障害が発生

IT 業界の方なら誰でも知っている。だけど、そうでない方には全く馴染みが無いかもしれません。2012/06/20 ごろからファーストサーバで大規模障害が発生していました。

ファーストサーバというのは所謂クラウドビジネスを展開する事業者です。利用者に対してサーバリソースを提供しています。ユーザ数が 5,000 (一説には 50,000)だそうです。個人ユーザだけではなく官公庁・一般企業も多数利用しているサービスです。それだけのユーザが利用していたデータが消失してしまいました。どうやら「少しだけ失われた」とか生易しいものではないようです。「全て」のデータが失われた可能性があるようです。復旧は不可能という公式発表も行われています。

ファーストサーバの大規模障害、データ復旧は不可能[Computerworld : 2012/06/23]

IT 業界に携わる人なら分かると思いますが、これは「身の毛のよだつような」大規模障害です。

インフラビジネスの怖さと責任

今回、この事故があったことで私が改めて感じたことは、インフラビジネスの怖さ、です。

基本的に、インフラビジネスにおいて「事故は絶対にあってはならないもの」です。何が何でも事故だけは起こしてはならないのです。ひとたび事故が起きれば、途轍もないダメージを利害関係者に与えてしまいます。

関係者の方には申し訳ありませんが、別に過去の古傷をほじくり返そうというわけではありません。そう前置きしたうえで、あえて書きます。客観的事実として、過去においても大規模インフラ災害は起きてきました。そして、インフラビジネスで起きた「事故」は大きな傷跡を残してきました。

記憶に新しい所では、やはり東電の福島第一原子力発電所の事故でしょう。ここでも起きてはならない事が起きてしまいました。原子力発電所のメルトダウンは数年でケリが付く問題ではありません。気の遠くなるような途方もない時間が解決のために必要でしょう。

また、私が思い出すのは JR 西日本の福知山線脱線事故です。これもインフラビジネスで起きた大規模な事故です。この事故では何人もの方が亡くなられました。また、JR 西日本にも大きな教訓を残すことになった事故でもあります。この事故を思い返すだけでも、やはりインフラビジネスで事故だけは起こしてはならないと痛切に感じます。

そして、今回の事故はクラウドというインフラビジネスで起きた大規模障害です。規模において、これまでに挙げたような事故と同列に並べることができるかどうかは明らかではありません。しかし、その本質はインフラビジネスにおける事故という点で同じだと思います。

言わずもがなかもしれませんが、今回の事故は (私を含めて) IT 関係者は自らの責任を再考する良い機会ではないでしょうか。現場レベルだけではなく、組織レベルでも、そして社会のレベルにおいても、その責任の大きさを再確認するべきでしょう。

これはクラウドサービス事業者だけに限るものではありません。IT に関わる人が大なり小なり意識しなければならないことだと思います。程度の差こそあれ、大抵の IT 事業者は社会的なインフラの一部を提供しているからです。

サービス品質を下げる=運用コストを上げる

ただ、このような事を言っても、所詮は精神論にしかなりません。では、具体的にどうやっていけばいいのかという話になってくると、これまた、途轍もない茨の道が目の前に広がっているわけです。それを思うとさらに胃が痛くなる…。

やはり、サービスの品質を落とすことも視野に入れないといけないのかもしれません。これは、直接的にサービスの品質を落とすだけではなく、運用に関するコストを上げて安全性を高めることで、間接的にサービス品質が割高になるということを含みます。

もう少し言うと、このようなシステムの運用に関する意識を高める必要があるということです。どちらかと言えば、システムの運用は一段低く見られる傾向があると私は思います。まず、この風潮から是正していくべきではないかと思います。

そして、運用に関するランニングコストが嵩むことも容認していかなければならないでしょう。システムの運用は決して簡単な仕事ではありません。多少コストがかかっても、キチンとした要員配置を考えるべきでしょう。ひょっとすれば組織の中のエース級を投入するぐらいの気概が必要かもしれません。

また、システム運用にかかわる初期コストは非常に高くつくことも覚悟しなければならないでしょう。この点に関しては私は強い危機感を感じます。先ほども言いましたが、システムの運用というのは軽んじられる傾向があります。システムが稼働する前には、そのシステムが運用する姿を思い描いて、キチンとシステム運用の「設計」をしなければなりません。ですが、恐ろしい事に、実態としては「運用設計」がなおざりになっている場合が多いのではないかと私は思います。

世の中「作る」ことしか眼中にない人は一杯います。ですが「作る」ことより「使う」事の方がはるかに重要なのです。そして、その「使い続ける」ための仕組みを事前に「作ら」なければならないのです。運用設計とはそういうことです。この視点がすっぽ抜けているのではないかと、時々、私は疑ってしまうことがあるのです。

このような事を考えていると、JR 西日本の福知山線脱線事故後の対応は英断だったのかなと考え込んでしまいます。JR 西日本は事故の後にその過密ダイヤを少し緩和しました。すなわち、敢えてサービスレベルを落とすという決断をしたのです。収益性よりもよほど大切なものがあると同社は考えたということです。

さて、IT 業界はこのような英断ができるのでしょうか。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする