ファーストサーバーの障害に見るサーバー選び1

ファーストサーバーさんの障害
規模としては、日本最大でしょうか?

一般ユーザーの方は、非常にびっくりしたかもしれません。

当社にも、いろいろな問い合わせが寄せられました

改めて言うと、サーバーは必ず障害が起こります
機械は必ず壊れるからです。これは、クラウドも同じです。
クラウドという仮想環境は、物理環境の上で動いています。


まず、最初に言いたいことを述べると
・サーバーは落ちるんだから、その準備しとこうよ
・サーバー選択と運用は別物で、サーバーを選んだだけで、終わってませんか?
・サーバーと運用に関して、知らない人が多すぎる
これだけです。
知る(分析)&準備



どうしても、まずは売り上げがあがるところに目がきます。
経費を消費するだけのサーバーも運用も一番最後になりがちなのは、経験上仕方がないことだと思います

これは、セキュリティと同じなのですが、どんなにやろうとも完璧にはなりません。
完璧に近づけようとするほど、コストは指数関数のように上がってきます。

しかし、経験積んだ人間に掛かればコストパフォーマンスが高い提案や、会社の実情に合わせ予算や社員に応じたやり方はコンサルする事は出来るのです。
それは、結局の所、コストも安くなります(ただ、信頼できる人と言う事が条件)

サービスをストップさせず、売り上げを加速するためにも、一度は運用回りは真剣に見直してみることをおすすめします。
今周りにいるコンサルタント&技術者はサーバーが落ちる事を、貴方に指摘されましたでしょうか?アクセス過多に陥った時は、具体的にどうする?と言ってくれましたか?w
もっというと、素晴らしいコンサルタントは、本当に売り上げあがったサーバーを管理した経験はあるのでしょうか?(ちなみに、経験上月500万ぐらいまでは偶然でもいけますw)

運用代行、各種コンサルティングもやっておりますので
お気軽に弊社までご相談ください(と宣伝入れておきますw)


要点はここまでです
後は、飛ばしても大丈夫です


今回のトラブルで、個人的に一番興味深かったポイントは
・サーバートラブルが起こらない
・データの保証は無い
・サーバー屋は、損害賠償を請けない約款で契約させている
この辺を知らない、IT業界の人間(似非?)が意外に多いなぁと言う事です。

その上で、こういう事を言う人達は、知らないだけなのか、知った上での選択なのかは興味があるところです。

これは、経営者にも言えます。
・サービス運用は、何分止めて大丈夫なのか?
・サービス運用に幾ら予算を費やせるのか?
・データの運用は?
こういうこと考えていない人が非常に多いです。



私は、セキュリティ業界からスタートしました
長いこと運用側から業界を見てきたので、運用側と開発側、経営者の考えに溝があるのが判っています。
経営者は出来るだけコストは抑えたいので、運用側にお金を回さない、回せない状況でサービスをスタートしてしまう
これは、仕方のない状況です。

そして、現場では
・プログラムのドキュメントもない
・セキュリティも最低限しか考え無い
・運用ルールを決めても居ない
こんなのは、当たり前です

一人のできる技術者に全てを押しつけて、サービスはスタートしていきます
こういう状況下で、サーバー選択に関して、金額とブランドネームでしか選べないのは仕方ないことです
HPに書いている情報を信じて、選択するしかありません。

何故こうなったのでしょうか?
・ハードウェアが進歩して、サーバーが落ちにくくなった(低価格にも)
・スタートアップにスピードが求められている
この2つの要因に尽きると思います

ハードウェアの性能に関しては、Xeon5系がでてから飛躍的に向上しました
CPUの性能は勿論、メモリも大量に乗せられ、長いこと問題だったIOの問題も、SSDやFusion-io等の出現により、飛躍的に向上しました。
正直、今時のサーバーだと、普通の運用で100%の負荷を掛けることすら難しいです。

そして、現場ではスピードが求められていることも知っています。
ここは、一番印象的なのは、将来アプリが問題が出る場合、ドキュメント作るより、プログラムを作り直した方が早いとあるPGから言われた言葉が刺さっています。

僕はこの言葉で、サーバー屋としてのやり方を変えるようになりました
従来の考え方は、とにかく電源ボタン押したら、3年以上は環境すら変えない。
プログラムに欠陥があれば、修正。
サーバーの負荷があがれば、出来るだけチューニングする
これが、当たり前だったからです。

さらに、経営者目線で見てみれば、数百、数千万円のプロジェクトは、人使ってなんぼ。
良いアイデア考えついて、どれだけ早くリリースするか?これに尽きます。

過負荷になりました→それならスケールアップか、プログラム書き換えた方が、早いし結局安いんでしょ?

言葉が出ませんでした。
しかし、ベンチャーやPG目線で考えると、当然の考えではあるのと、知っててやる事に関しては何も問題はありません。

そういうこともあって、2つの要因という結論に至りました。

ただ、全てが正しい訳ではありません、ある程度の売り上げ規模になったら適正な費用を掛けることは重要です
その上で、とにかくシステム全体にブラックボックスをなくすこと。目の前のコストに振り回されないことが、回り道でも、トータルで金が掛からない運用になってきます。
そこが、実際に困るまで分かり難い、これが問題なのです

4,5年前、顧客がトラブルの時、社長にサーバーが壊れるなんか知らなかったと詰められました

その社長に説明不足だった自分の能力不足を自覚すると共に、毎月数千万円そのサーバーで売り上げ上げている現状でも、認識はそんな物なんだと改めて痛感しました。
その時は、サーバーそのものは1時間で復旧。データの流し込み(ユーザーが取っていなかった)で、さらに、4時間かかりました。


こういう大規模な障害事例をみて、改めてサービスの可用性をどこで割切り、如何にクライアントに経営に集中させるか?
私達の腕の見せ所だなぁと思いました。


追記
サーバー屋って一流どころ以外は、千差万別
一番凄いなぁと思ったところは、フレッツ回線引いて、帯域保証しているような所ありました。
騙された方が悪いんですかねぇ・・・・・・・・・

トラックバック(0)

このブログ記事を参照しているブログ一覧: ファーストサーバーの障害に見るサーバー選び1

このブログ記事に対するトラックバックURL: http://www.kaiman.net/cgi/mtn/mtn2/mt-tb.cgi/1206

コメントする

このブログ記事について

このページは、が2012年6月22日 09:19に書いたブログ記事です。

ひとつ前のブログ記事は「自分用メモ&雑感など6月20日、つぶやき代わり」です。

次のブログ記事は「ファーストサーバーの障害に見るサーバー選び2」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.29