LINUX: 2011年2月アーカイブ
ここ数日、急な物事の展開や、取引先のサーバーのトラブルの対応で、遅れては居たのですが、昨日は、無駄に体が寒くなると言う現象が発生し、アウト。
結果見れば、連日20時間ぐらい、緊張感ある中で働いて、完全な燃料切れだったのかも。
目が回り吐き気がし出したので、20時で仕事を止めて、アイスを食べたら、数時間で収まりました。
参考までに、サーバートラブルの様子を公開します(あくまで)
・1から2月前ぐらいに、緊急停止。
その時は、なぜか、ISPではなく、●TTから、連絡。
その時は再起動で復帰
(ここ、理由判る方います?トラフィックでも、仮に違法コンテンツ掲載でも、ISP飛び越えて、回線屋の方が来る事例。ちなみに、うちが世話になっている業者では、聞いた事がないという事でした。)
・そこから2週間ごと、上記と同様の事が数回起こる。
・その上で、メールトラブルも発生。
・トラブルの周期が短くなり、ついに、再起動だけでは、直らなくなる
・末期は、毎日。
・最後は1日に3度も、落ちるようになる
その上で
・設定も、運用も、こちらに、全く知らされて無く、落ちた結果、前後の様子しか判らない
・現在運用している人間が、全くなれて居ない
・その上で、上記の人間が、操作ミス、勘違いが非常に多い
この複数要因が原因で時間掛かっていました。
現場で、直接コントロール出来ていたら、もっと早かったのですが、遠隔で、その上で、正確な情報が無かったので、一つずつ、要因を消していくしかありません。
この会社では、もう一つサーバーが運用され、もう一つは、20倍以上の負荷が掛かっていて、サーバーのスペックも、2世代は、落ちたスペックです。
このサーバーの違いは、運用しているアプリが異なるのと(ECサイトをやっている)、外部の人間が接続するサーバーという事でした
これ考えると
・接続関連
・人為的ミス
・アプリ
・攻撃
この4つかなと言う大まかな要因に切り分け、トラブルシューティングです
この段階では、管理者の、設定ミスを疑っていました。
まずは、設定と、運用しているアプリの情報をまとめて貰うのをやってもらい、並行して、接続を、サーバーの方で、やっていたので(ppoe)ルーターを導入しました。
導入直後、非常に快適になったのですが、当日の夜→早朝にかけて3度落ちる。
と言う状況になりました。
これで、過負荷と接続という部分も無くなりました。
次に、今度は、アプリ動かす以外の余計な物の設定の排除をしました。
設定者が、消え去り、その後、スパゲッティーコードのごとく、つぎはぎで、サーバーの設定を、色々変更して、現状の管理者では、ほとんど理解してなかったからです。
そして、若干落ち着きを取り戻しました。
なかなか、情報も、時間掛かりそうなので、次の指示。
ウイルスチェックをして貰いました。
その結果は、
こんなの出てきたんですが、どうすれば良いですか?
それみて、全てを悟りました。
それが原因だと。
今回のは、同じような環境のサーバーがもう一台有り、そっちの方が負荷があるのに、落ちてない。
そのサーバーとの差を考えるのが早道と考えていました。
その上で、アプリか?設定ミス、ひょっとしたらという思いも、すこしありました。
変な名前のプロセスが、動いていたのは、気付いていたのですが、それよりも、まず、問題の切り分けが先だと思いが強かったのと、直前に、管理者の設定ミスで、この数ヶ月、停滞していた事が、1点判明していたので、その部分から、洗おうと必死でした。
しかし、動いていたプロセス名、電話で、こんなウイルスが見つかったんですが、と聞いた時に、全てがつながりました。
ああ、相手も判らないような奴がつなぐ(FTP)サーバーだったんだって
サルベージも、したいところですが、まずは、安定運用という事で、暫定的に削除して、様子見、並行して、情報まとめるのと、新しいサーバー構成と管理構成を構築すべく、動いています。
本当の理由は、サルベージ後に、又公開する予定。
ちなみに、今現在は、落ち着いてCPU10%前後の使用、ロードアベレージも0.3前後で安定しています
さて、今日も頑張ろう