データセンター業務のトラブル
ここ最近のトラブルを機に、データセンター業務を振り返ってみました。
自社内でのサーバー運用は、2002年頃から、開始なのですが
正式に、ユーザー様に利用してもらい始めたのが、2006年からです。
当社の場合、ほとんどオーダーメードの専用サーバー、もしくは、運用を委託されてのホスティングがほぼ9割以上という、特殊な環境です。
特殊な環境というのにふさわしく、alexaのランキング(日本)で3000番以内に、何サイトか、うちが管理するサイトがあったり、とにかく、負荷が高いサイトが多いのが特徴です。1サイトで月間9000万PV達成する様なサイトも存在します。
負荷が高いサイトが多いため、アプリの動作性能が、もろに出る場合が多く、特に、サーバーの性能が低かったときは、アプリ落ちが、悩みの種でした。
当社の場合、特に、トラブルが出る、お客様は決まっていて、パターンとしては、自社の運営しているサイト群の負荷が理解し切れてない、とか、アプリを運営者自身が、コントロールし切れてない場合に、よく発生します。
特に、静的WEBから動的なWEBサイトに移行期だったこともあり、皆さん、手探りで、アプローチしていたので、この部分は、こちらも、非常に、勉強になりました。
といのが、こういう、独自アプリを利用して、高負荷環境で回しているサーバー以外、サーバーって、落ちることが無く、良くも悪くも、上記の経験は、凄く役に立ちました。
サーバーは、トラブルや、落ちると言うことがあるというのは、頭で判っていても、実際に体験して見ないと、判りません。ある意味、あらゆるクレームを、言われたので、本当に経験になりました。
ちなみに、前述の月間9000万PVを超えるサイトは、2006年から運用しているのですが、ノーメンテ、ノートラブルで、今まで来ています。
で、そんなことを考えながら、大きいデータセンターのトラブルを振り返ってみました。
・外部DNSサーバーの回線落ち(1時間ほど)
・当時共用サーバー兼メインサーバーのオーバーフロー(30分ほど)
・客サーバーのHDトラブル(運用中のファイルシステムの故障、復旧3時間ほど)
・客サーバーのHWトラブル(再起動不可、復旧4時間ほど)
・メインブレーカー落ちのトラブル(原因不明、ブレーカー交換)
・UPSトラブル(雷が原因、UPS即落ち、1時間で復旧)
・UPSトラブル(過電流、40分ほどで復旧)
・共用サーバーの1台が過負荷(15分ほどで復旧)
と、意外に、少なかったんだなと、思いました。
この中でも、一番、ノイローゼになりそうだったのが、ブレーカーでした
ある日突然、ブレーカーが落ちるようになりました。
当時は、過電流ほども、電源使ってなかったのと、落ちるブレーカーの部分の構成はメイン(120A)の下にサブ(30A)の構成だったのですが、落ちるブレーカーは、メイン側、つまり、下流の過電流で、落ちているわけではなさそうなのです。
最初は、UPSのアラームで気付き、なぜか、理由は、判らなかったのですが、毎日、同じ時間に、ブレーカーが落ちるようになって、そこからは、かちっと言う音に、敏感に反応する様になりました。
結局、ブレーカー交換をしたのですが、メーカーに直送しても、理由は出ず、有耶無耶になったのですが、今でも、あの恐怖は、覚えています。
話は戻って、ほぼ、99.999%の稼働率は、達成しているのかなと、思いつつ、今後も、もっとシステマティックに、管理し、稼働率あげたり、トラブルを下げていきたいなと、考えています。
クラウドも良いのですが、CPU以外の部分で、高負荷だと、なかなか、安易に、クラウドで解決しましょうなどと、いえない場合が、多いので、僕らの存在する意義も、もっと、見つけていきたいです。
しかし、個人的に、お客様要因のトラブルで、電話かかる場合が(昼夜、曜日問わず^^;)、多かったので、もう少し、トラブルは、多かったと思っていたので、意外に、少ないんだなと、自分でも、驚いてしまいました。
とにかく、いろんな場面で対応できるように、これからも、精進するつもりです。
よろしくおねがいします
トラックバック(0)
このブログ記事を参照しているブログ一覧: データセンター業務のトラブル
このブログ記事に対するトラックバックURL: http://www.kaiman.net/cgi/mtn/mtn2/mt-tb.cgi/688
コメントする