データセンター業務のトラブル

2010年9月13日 19:29 | 個別ページ | コメント(0) | トラックバック(0)

ここ最近のトラブルを機に、データセンター業務を振り返ってみました。

自社内でのサーバー運用は、2002年頃から、開始なのですが

正式に、ユーザー様に利用してもらい始めたのが、2006年からです。

当社の場合、ほとんどオーダーメードの専用サーバー、もしくは、運用を委託されてのホスティングがほぼ9割以上という、特殊な環境です。

特殊な環境というのにふさわしく、alexaのランキング（日本）で3000番以内に、何サイトか、うちが管理するサイトがあったり、とにかく、負荷が高いサイトが多いのが特徴です。1サイトで月間9000万PV達成する様なサイトも存在します。

負荷が高いサイトが多いため、アプリの動作性能が、もろに出る場合が多く、特に、サーバーの性能が低かったときは、アプリ落ちが、悩みの種でした。

当社の場合、特に、トラブルが出る、お客様は決まっていて、パターンとしては、自社の運営しているサイト群の負荷が理解し切れてない、とか、アプリを運営者自身が、コントロールし切れてない場合に、よく発生します。

特に、静的WEBから動的なWEBサイトに移行期だったこともあり、皆さん、手探りで、アプローチしていたので、この部分は、こちらも、非常に、勉強になりました。

といのが、こういう、独自アプリを利用して、高負荷環境で回しているサーバー以外、サーバーって、落ちることが無く、良くも悪くも、上記の経験は、凄く役に立ちました。

サーバーは、トラブルや、落ちると言うことがあるというのは、頭で判っていても、実際に体験して見ないと、判りません。ある意味、あらゆるクレームを、言われたので、本当に経験になりました。

ちなみに、前述の月間9000万PVを超えるサイトは、2006年から運用しているのですが、ノーメンテ、ノートラブルで、今まで来ています。

で、そんなことを考えながら、大きいデータセンターのトラブルを振り返ってみました。

・外部DNSサーバーの回線落ち（1時間ほど）

・当時共用サーバー兼メインサーバーのオーバーフロー（30分ほど）

・客サーバーのHDトラブル（運用中のファイルシステムの故障、復旧3時間ほど）

・客サーバーのHWトラブル（再起動不可、復旧4時間ほど）

・メインブレーカー落ちのトラブル（原因不明、ブレーカー交換）

・UPSトラブル（雷が原因、UPS即落ち、1時間で復旧）

・UPSトラブル（過電流、40分ほどで復旧）

・共用サーバーの1台が過負荷（15分ほどで復旧）

と、意外に、少なかったんだなと、思いました。

この中でも、一番、ノイローゼになりそうだったのが、ブレーカーでした

ある日突然、ブレーカーが落ちるようになりました。

当時は、過電流ほども、電源使ってなかったのと、落ちるブレーカーの部分の構成はメイン（120A）の下にサブ（30A）の構成だったのですが、落ちるブレーカーは、メイン側、つまり、下流の過電流で、落ちているわけではなさそうなのです。

最初は、UPSのアラームで気付き、なぜか、理由は、判らなかったのですが、毎日、同じ時間に、ブレーカーが落ちるようになって、そこからは、かちっと言う音に、敏感に反応する様になりました。

結局、ブレーカー交換をしたのですが、メーカーに直送しても、理由は出ず、有耶無耶になったのですが、今でも、あの恐怖は、覚えています。

話は戻って、ほぼ、99.999%の稼働率は、達成しているのかなと、思いつつ、今後も、もっとシステマティックに、管理し、稼働率あげたり、トラブルを下げていきたいなと、考えています。

クラウドも良いのですが、CPU以外の部分で、高負荷だと、なかなか、安易に、クラウドで解決しましょうなどと、いえない場合が、多いので、僕らの存在する意義も、もっと、見つけていきたいです。

しかし、個人的に、お客様要因のトラブルで、電話かかる場合が（昼夜、曜日問わず^^;）、多かったので、もう少し、トラブルは、多かったと思っていたので、意外に、少ないんだなと、自分でも、驚いてしまいました。

とにかく、いろんな場面で対応できるように、これからも、精進するつもりです。

よろしくおねがいします

トラックバック(0)

このブログ記事を参照しているブログ一覧: データセンター業務のトラブル

このブログ記事に対するトラックバックURL: http://www.kaiman.net/cgi/mtn/mtn2/mt-tb.cgi/688

このページは、が2010年9月13日 19:29に書いたブログ記事です。

ひとつ前のブログ記事は「続く」です。

次のブログ記事は「グランドデザイン」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。