LINUXの最近のブログ記事

エラーが出る

| コメント(0) | トラックバック(0)
メインのサーバー群は、豪華なハードウェアRAID+SAS、もしくは、SCSI仕様なのですが、自分の趣味や遊びで使っているサーバーは、SATA


データ保存の新しい方法を実験していたら、有るマシンがエラーメールとともに、落ち始めた。



[タイトル]

SMART error (CurrentPendingSector) detected on host: XXX.com


[内容]


This email was generated by the smartd daemon running on:

  host name: XXX.com
 DNS domain: net
 NIS domain: (none)

The following warning/error was logged by the smartd daemon:

Device: /dev/sda, 1 Currently unreadable (pending) sectors

For details see host's SYSLOG (default: /var/log/messages).

You can also use the smartctl utility for further investigation.
No additional email messages about this problem will be sent.


こんなかんじ。
初めてのエラー内容と症状
落ちたら、勝手に復帰はしているのだが、、、、、

とりあえず、これから調べて見る






自分用メモ


CentOSで 外付けUSB HDを使う時のメモ

ハードウェア
・Century のシンプルBOX
・Hitachi deskstar 2TB 32M

hd.JPG



























1,サーバーと接続する

2,/var/log/messagesで ログをチェック

Jun 11 17:37:59 server3 kernel: usb 1-2: new high speed USB device using address 3
Jun 11 17:38:00 server3 kernel: Initializing USB Mass Storage driver...
Jun 11 17:38:00 server3 kernel: scsi4 : SCSI emulation for USB Mass Storage devices
Jun 11 17:38:02 server3 kernel:   Vendor: Hitachi   Model: HDS5C3020ALA632   Rev:
Jun 11 17:38:02 server3 kernel:   Type:   Direct-Access                      ANSI SCSI revision: 02
Jun 11 17:38:10 server3 kernel: SCSI device sdb: 3907029168 512-byte hdwr sectors (2000399 MB)
Jun 11 17:38:10 server3 kernel: sdb: assuming drive cache: write through
Jun 11 17:38:10 server3 kernel: SCSI device sdb: 3907029168 512-byte hdwr sectors (2000399 MB)
Jun 11 17:38:10 server3 kernel: sdb: assuming drive cache: write through
Jun 11 17:38:10 server3 kernel:  sdb: unknown partition table
Jun 11 17:38:10 server3 kernel: Attached scsi disk sdb at scsi4, channel 0, id 0, lun 0
Jun 11 17:38:10 server3 kernel: usbcore: registered new driver usb-storage
Jun 11 17:38:10 server3 kernel: USB Mass Storage support registered.
Jun 11 17:38:10 server3 scsi.agent[14825]: disk at /devices/pci0000:00/0000:00:02.1/usb1/1-2/1-2:1.0/host4/target4:0:0
/4:0:0:0

デバイスを何で認識しているか見る
/dev/sdb
として、今回は認識
以下、新規でHDを使うとして、流れ


3、パーティションの作成
fdisk /dev/sdb

4,n(新たに領域の作成)

5,p(基本領域)

6,1

7,1

8,enter を押す(これで作成)

9,p (確認)

10、w (終了) 

11、フォーマットする(今回は、EXT3)
mkfs.ext3 /dev/sdb1

2Tで20分近くかかりました
ちなみに、クアッドコアのPCサーバーでロードアベレージが9ぐらいまで上昇した^^;

12,マウントする(これは、お好きなように)
mkdir /mnt/usb
mount -t ext3 /dev/sdb1 /mnt/usb


13,ちなみにアンマウント
umount /mnt/usb

ここ最近、地味に、自分管理分のサーバーに、障害が。



まず最初は、3台同時落ち。


これは、原因不明なのですが
全く、関連がない、サーバー、用途も、全く別、能力も別、電源関連も別のサーバーが3台同時期に、再起動と、停止2台。

2台は、同じ電源という事もあり、タップの疑いも、有るのですが、不明。
要チェックマシンに移動



そして、次の日同じタイミングで、3台とも動いているの確認。
安心していたところ
次の日翌朝、その三台の中の1台が、カーネルパニックを起こしてました


このマシン、一日、300万PVと、100メガ超のトラフィックを裁いている優秀なサーバーで、3年以上、無放置でした。


とりあえず、このマシンに関しては、原因は寿命が一番近いのですが、まぁ、問題なく稼働しているので、最低限のアップデート(クリティカルな物しか、アップデートしませんでした。)

カーネルパニック起こした場合、10秒程度で戻る設定にして、様子見をする事にします
/proc/sys/kernel/panic
ここのパラメーターを設定(数値で再起動の秒数)

/etc/sysctl.conf

kernel.panic = 10
ここのパラメーターを付け加える


CentOS4とカーネルの問題で、カーネルパニック起こすのは、経験済みなので、要因は、ここか、エラーの内容見る限り、Raidカードっぽいのでだめなら、一度電池交換してみるw

ちなみに、このサーバー、これだけトラフィックと、書き込み有るのに、HD動かしてから、交換一度もない。ほんとに優秀です。何の故障もありません。

このパターン、2回見ているので、どちらかで対応できるはず。
.


頻繁に起これば、マシン交換かな


そして、安心したところ、同じ問題を起こした事があるマシンにアクセスしようとするとできない。。

サーバーは、生きてる。


外部通信できない。。。。。


ルーター死んでました^^;

しかし、続きますね。


このサーバーは、ユーザーがテスト環境を外部に欲しいと言う、完全管理も委託マシンで、ルーターも、おもちゃルーターがついているので、1年に一度くらい、こういう感じで、ルーターがハングします。
トラフィック全くないのに、1年に一度以上落ちるルーター。出して良いんでしょうか?

とりあえず、これは、電源の抜き差しで対応



さて、問題のマシン、今日以降の挙動、どうなる事やら



挽回しなければ

| コメント(0) | トラックバック(0)
ここ数日、急な物事の展開や、取引先のサーバーのトラブルの対応で、遅れては居たのですが、昨日は、無駄に体が寒くなると言う現象が発生し、アウト。

結果見れば、連日20時間ぐらい、緊張感ある中で働いて、完全な燃料切れだったのかも。

目が回り吐き気がし出したので、20時で仕事を止めて、アイスを食べたら、数時間で収まりました。



参考までに、サーバートラブルの様子を公開します(あくまで)



・1から2月前ぐらいに、緊急停止。
その時は、なぜか、ISPではなく、●TTから、連絡。
その時は再起動で復帰
(ここ、理由判る方います?トラフィックでも、仮に違法コンテンツ掲載でも、ISP飛び越えて、回線屋の方が来る事例。ちなみに、うちが世話になっている業者では、聞いた事がないという事でした。)

・そこから2週間ごと、上記と同様の事が数回起こる。

・その上で、メールトラブルも発生。

・トラブルの周期が短くなり、ついに、再起動だけでは、直らなくなる

・末期は、毎日。

・最後は1日に3度も、落ちるようになる


その上で
・設定も、運用も、こちらに、全く知らされて無く、落ちた結果、前後の様子しか判らない
・現在運用している人間が、全くなれて居ない
・その上で、上記の人間が、操作ミス、勘違いが非常に多い

この複数要因が原因で時間掛かっていました。

現場で、直接コントロール出来ていたら、もっと早かったのですが、遠隔で、その上で、正確な情報が無かったので、一つずつ、要因を消していくしかありません。

この会社では、もう一つサーバーが運用され、もう一つは、20倍以上の負荷が掛かっていて、サーバーのスペックも、2世代は、落ちたスペックです。
このサーバーの違いは、運用しているアプリが異なるのと(ECサイトをやっている)、外部の人間が接続するサーバーという事でした

これ考えると
・接続関連
・人為的ミス
・アプリ
・攻撃
この4つかなと言う大まかな要因に切り分け、トラブルシューティングです
この段階では、管理者の、設定ミスを疑っていました。

まずは、設定と、運用しているアプリの情報をまとめて貰うのをやってもらい、並行して、接続を、サーバーの方で、やっていたので(ppoe)ルーターを導入しました。

導入直後、非常に快適になったのですが、当日の夜→早朝にかけて3度落ちる。
と言う状況になりました。

これで、過負荷と接続という部分も無くなりました。

次に、今度は、アプリ動かす以外の余計な物の設定の排除をしました。
設定者が、消え去り、その後、スパゲッティーコードのごとく、つぎはぎで、サーバーの設定を、色々変更して、現状の管理者では、ほとんど理解してなかったからです。


そして、若干落ち着きを取り戻しました。


なかなか、情報も、時間掛かりそうなので、次の指示。

ウイルスチェックをして貰いました。


その結果は、

uirus.JPG



























こんなの出てきたんですが、どうすれば良いですか?




それみて、全てを悟りました。

それが原因だと。


今回のは、同じような環境のサーバーがもう一台有り、そっちの方が負荷があるのに、落ちてない。
そのサーバーとの差を考えるのが早道と考えていました。

その上で、アプリか?設定ミス、ひょっとしたらという思いも、すこしありました。

変な名前のプロセスが、動いていたのは、気付いていたのですが、それよりも、まず、問題の切り分けが先だと思いが強かったのと、直前に、管理者の設定ミスで、この数ヶ月、停滞していた事が、1点判明していたので、その部分から、洗おうと必死でした。

しかし、動いていたプロセス名、電話で、こんなウイルスが見つかったんですが、と聞いた時に、全てがつながりました。

ああ、相手も判らないような奴がつなぐ(FTP)サーバーだったんだって


サルベージも、したいところですが、まずは、安定運用という事で、暫定的に削除して、様子見、並行して、情報まとめるのと、新しいサーバー構成と管理構成を構築すべく、動いています。

本当の理由は、サルベージ後に、又公開する予定。



ちなみに、今現在は、落ち着いてCPU10%前後の使用、ロードアベレージも0.3前後で安定しています


さて、今日も頑張ろう







swatch等で、攻撃判定で、自動でIP落としている場合の削除コマンド

iptables -D INPUT -s x.x.x.x -j DROP > /dev/null 2>&1


うっとうしいアクセスしてくる時の即落とし

iptables -I INPUT -s x.x.x.x -j DROP


タイトル通りのクライアントの要請があったので、調べる
PHP周りに疎いのが、申し訳ないという感じですが、あがいてみました

yum install php-devel httpd-devel

pear install pecl/apc

エラー。
phpizeが無いと、、、、、php-devel入れてるし

考えるのだるくなったので
yum -y install libtool libtool-libs libtool-libs13

pecl install apc

今度はapxsが無いと。。。。

ダメ元で、httpdが起動してないからその性?
あと、
yum install gcc-c++
もやって見て、
pecl install apc

何故かOK

php.iniにextension="apc.so"を付け足す

apc.jpg







APC インストール

| コメント(0) | トラックバック(0)

サーバーにAPCのインストールをお願いされた(CentOs4 php5.2.9MySQL5.1.6)

とりあえず、パッケージで入れたいが、コマンド一つらしい

 

pecl install APC

 
エラーw
sh: phpize: command not found
ERROR: `phpize' failed

PHP周りは詳しくないので、googleで調べるw

php-develパッケージが必要らしい

yum --enablerepo remi php-devel
(remi のレポリトジを利用しているため、、)
 
再度
pecl install apc
 
今度も、エラー、、、、しかし、このエラーは、身に覚えがない
どうもapxsがどうのこうの、みたいなのだが、これって、デフォルトで入っていたような
とりあえず、ダメ元で
 
yum --enablerepo remi httpd-devel
 
で、再度
pecl install apc
 
できた
php.iniに書き足して httpdを再起動
 
これで動いているはず?

 

 

お客から要請があったので、CENTOS4にphp5.2.8 mysql5.1.3をインストール

テスト環境と言う事もあり、楽な方法と指定されていたので、色々調べた結果

Le RPM de Remi


ここのリポジトリを使ってやることに

wget http://download.fedora.redhat.com/pub/epel/4/i386/epel-release-4-6.noarch.rpm
wget http://rpms.famillecollet.com/el4.i386/remi-release-4-4.el4.remi.noarch.rpm
rpm -Uvh remi-release-4*.rpm epel-release-4*.rpm

su -
cd /etc/yum.repos.d
wget http://rpms.famillecollet.com/remi-enterprise.repo

rpm --import http://rpms.famillecollet.com/RPM-GPG-KEY-remi

yum --enablerepo remi-test install php php-mbstring php-gd php-mcrypt php-mysql php-pear

yum -enablerepo=remi-test install mysql-server

そ:wのままやると何故かエラーがでたので、よく見ると remi-testのURLがおかしかったので、修正してやる
vi remi-enterprise.repo


OK

しかし、この環境で、本当に実運用で回すのか不安w





補足、ここにたどり着くまでの手法
1,centos plusを使う

vi /etc/yum.repos.d/CentOS-Base.repo
[centosplus]
enabled=0

enabled=1


これだと、php5.1.6 mysql5.0.6迄にしか為らない

2,違うリポジトリの利用

rpm^--import http://www.jasonlitka.com/media/RPM-GPG-KEY-jlitka

vi /etc/yum.repos.d/utterramblings.repo

[utterramblings]

name=Jason's Utter Ramblings Repo

baseurl=http://www.jasonlitka.com/media/EL$releasever/$basearch/

enabled=1

gpgcheck=1

gpgkey=http://www.jasonlitka.com/media/RPM-GPG-KEY-jlitka


しかし、この手法だと、php5.2.6 mysql5.0.6 httpd2.2って感じ、

3,上のリポジトリとrpmの組み合わせ

phpはyumでインストール
その後、rpmでmysqlをインストール

しかし、php-mysqlの部分が詰まる、でも、動作は確認


ソースからインストールすれば、解決だろ?って一言は抜きでw

ほんとなら、僕もそうしたい、そうしようと何度も思った、トライでした。。。

個人的メモ

| コメント(0) | トラックバック(0)
今更ながらAWSTATS

fedora3を試験機で使って以来、何年ぶりのインストール
シンプルにyumでインストールしても、もう2歩ぐらいの状態で、インストールが完了します。細かい事言わなければ、それでOKなのですが。。。。

とりあえず、今回はCentOS 5.2 X入れたサーバーで AWSTAS 6,8をyumでインストール

ぱっとした問題点
・検索キーワードが、所々文字化け
5%程度が文字化けなんですよね、惜しいw
・docomoがロボットとして扱われている
AUもまともに解析されていないのかも

・携帯部分の修正
browers_phone.pm
robots.pm
・文字化け(これは、一時しのぎ)
Jcode.pmインストール
utf8_decode.plを利用し、ログを変換
という、スマートではないやり方



とりあえず、携帯の部分は、コンフィグでの修正は見えてくるのだが、検索キーワードの部分のちょっとした部分の文字化けが少し引っかかる


参考になったところ

awstat携帯電話の機種を判別するメモ - サタケ家

[awstats] - 携帯ヲタがやってしまいました

AWStats携帯対応 | AWStats | CentOS » ひくら.net

 


memo fedora関連

| コメント(0) | トラックバック(0)
fedora 9

・swfdecのインストール
rpm -i livna-release-9.rpm
yum -y install swfdec-mozilla
yum -y instal gstreamer-ffmpeg gstreamer-plugins-bad gstreamer-plugins-ugly

・adobe のプラグインをインストールする場合
rpm -i flash-plugin-9.0.124.0-release.i386.rpm
yum -y remove swfdec-mozilla gnash-plugin
yum -y install libflashsupport

・DVDが上手く再生できない場合(totem)
yum -y install gstreamer-ffmpeg gstreamer-plugins-ugly libdvdcss libdvdread

・SysVinit とUpstartの動作の違い
fedora8が採用していた、initプログラムSysVinitは、/etc/inittabファイルの設定に応じて、ラン・レベルの設定やコンソールの準備などの処理を自前で実施する。これに対し、Upstartのinitプログラムは、イベント情報に対応したイベント・ジョブを実行する仕事に専念する


・起動する仮想コンソールの数を標準の6つから3つに減らすと良いらしい
tty4,tty5,tty6の定義ファイルの、rc3,prefdmをランレベルに応じてコメントアウトする

ウェブページ

Powered by Movable Type 4.25

このアーカイブについて

このページには、過去に書かれたブログ記事のうちLINUXカテゴリに属しているものが含まれています。

前のカテゴリはIT TECH?です。

次のカテゴリはMEMOです。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。