LINUX: 2011年3月アーカイブ
ここ最近、地味に、自分管理分のサーバーに、障害が。
まず最初は、3台同時落ち。
これは、原因不明なのですが
全く、関連がない、サーバー、用途も、全く別、能力も別、電源関連も別のサーバーが3台同時期に、再起動と、停止2台。
2台は、同じ電源という事もあり、タップの疑いも、有るのですが、不明。
要チェックマシンに移動
そして、次の日同じタイミングで、3台とも動いているの確認。
安心していたところ
次の日翌朝、その三台の中の1台が、カーネルパニックを起こしてました
このマシン、一日、300万PVと、100メガ超のトラフィックを裁いている優秀なサーバーで、3年以上、無放置でした。
とりあえず、このマシンに関しては、原因は寿命が一番近いのですが、まぁ、問題なく稼働しているので、最低限のアップデート(クリティカルな物しか、アップデートしませんでした。)
カーネルパニック起こした場合、10秒程度で戻る設定にして、様子見をする事にします
/proc/sys/kernel/panic
↑
ここのパラメーターを設定(数値で再起動の秒数)
/etc/sysctl.conf
kernel.panic = 10
↑
ここのパラメーターを付け加える
CentOS4とカーネルの問題で、カーネルパニック起こすのは、経験済みなので、要因は、ここか、エラーの内容見る限り、Raidカードっぽいのでだめなら、一度電池交換してみるw
ちなみに、このサーバー、これだけトラフィックと、書き込み有るのに、HD動かしてから、交換一度もない。ほんとに優秀です。何の故障もありません。
このパターン、2回見ているので、どちらかで対応できるはず。
.
頻繁に起これば、マシン交換かな
そして、安心したところ、同じ問題を起こした事があるマシンにアクセスしようとするとできない。。
サーバーは、生きてる。
外部通信できない。。。。。
ルーター死んでました^^;
しかし、続きますね。
このサーバーは、ユーザーがテスト環境を外部に欲しいと言う、完全管理も委託マシンで、ルーターも、おもちゃルーターがついているので、1年に一度くらい、こういう感じで、ルーターがハングします。
トラフィック全くないのに、1年に一度以上落ちるルーター。出して良いんでしょうか?
とりあえず、これは、電源の抜き差しで対応
さて、問題のマシン、今日以降の挙動、どうなる事やら