サーバートラブルの原因

先週から、おかしかったサーバーの原因がようやくわかる。


契約内容は、セミマネージドの契約
rootは渡さないが、全て客の要望通り設定して、管理だけを請けおったサーバー。


しかし、渡しっぱなしの状態で、データ領域は、全く立ち入らないので、有事の際も、原因の切り分けに時間が掛かります。


ここは、特徴的に、
・WEBアプリを派手に使い、
・PGもあまり熟練ではないのと、アプリが前任から引き継がれたモノ
・その上でそこそこ、トラフィックがある(1日約40万PV、平均3Mb/s)
と言うところです。


1,PHP&MySQLのバージョンアップ
当日、その依頼をされていました
テスト機も実機で用意し、十分にテストをしてから、本番に適用
十分準備していたので、10分ほどで作業も終わり、一安心してました


2,Nagiosの警告

夜中2時警告メールで目が覚めました
pingが通らないぞっとw

速攻でWEB確認


生きてます
しかし、Mrtg見てみると。。。。。

超異常。
トラフィック100M貼り付のような状態になってますw


3,とりあえず、実機をチェック

ハードウェアのトラブルではないことを確認し、原因追及
とりあえず、全てのログを待避、後は、ごにょごにょ


topをさらっと打ってみると

はい、変なプロセス動いてましたw
IRC系のツールが動いているようです


4,証拠保全と判断


とりあえず、後から説明と、万が一のための、証拠保全を図りつつ
サーバーのやられ度を確認。

それと、動いているプロセスが何かを確認。


全ての状況と、ファイルの種類、ここまでの経験から、XSSが臭いなと判断
(この判断に、至るまでの、細かいプロセスは省きます)


5,担当者に連絡、並行して、一時対策

前述の通り、動いているアプリが判らないので、アプリをチェックして貰うのと
念のため、全てのパスワード関連の見直し、アクセスルールを厳密化する事で一時しのぎ

とりあえず、原因のファイルの削除をして落ち着いたのと、ログの改ざん等は、無かったので、様子を見ることにしました


注意
この判断が、正しくない場合もあります
基本、やられたサーバーを稼働させておくのは、本当に危険です。
ユーザー領域以外の管理は、厳密にやっていたのと、サーバーアクセスに関しては、入り口が本当に狭いので、このやられ方なら、サーバー停止が、本気で困るクライアントには、最良の選択でした。
勿論、並行して、スペア作ったのは、言うまでもありませんがw


6,再発
1週間後、ちょうど、同じ時間に再発。

この間、ある程度、絞り込んでおいたので、シンプルに、XSSでインジェクション攻撃されているのをログで読み取れました。

速攻で、その部分のスクリプトを、稼働できないようにし、仕込まれたスクリプトも削除。
もう少し、様子見必要ですが、多分、大丈夫でしょう




7、総括

客のウェブアプリでXSSとはいえ、やられたのには、変わりがありません。
しかし、どうやって、客の領域、管理するかなと言うのは、課題です。

その上で、この1年半で、ウイルストラブル3件ありました。
(8年間で合計3件です)

・ガンブラーのGENQ系→客が感染、40サイトぐらいに影響
・GENQ系、これは、唯一客が客先に貸し出していた、サーバーで発症(弊社、管理外)
これは、僕が、まだ手元で、触ってないのですが、物凄く、激しく、影響出てます。
2週間ごとに、症状出ているので、早く、再インストールしたいのですが、客が、情報整理し切れてないので、未だ出来ず。
・最後は、今回の


自社で完全運用管理のサーバーでは、なってないのは、幸いなのですが、アプリの怖さや、ウイルスの根強さは、凄く感じます。

少し、基本に立ち返ろうと思った、この数週間でした











トラックバック(0)

このブログ記事を参照しているブログ一覧: サーバートラブルの原因

このブログ記事に対するトラックバックURL: http://www.kaiman.net/cgi/mtn/mtn2/mt-tb.cgi/824

コメントする

このブログ記事について

このページは、が2011年4月24日 09:12に書いたブログ記事です。

ひとつ前のブログ記事は「amazon EC2トラブルに関して」です。

次のブログ記事は「突きつけられた選択」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

Powered by Movable Type 4.29