どうも。Adachinです。

自分なりに障害対応についてまとめていきます。

運営するサーバで、

「サーバダウン、Web見れない、メール送れない、アタックか?」

これどうなってんの!?

はっかーこわいこわい。

先日、自鯖にてアタックが来ており、botを使って悪さしてた模様。

↑これらを素早く検知し、クライアントに連絡するのがサーバ管理のお仕事です。

今回はNagiosのエラーメッセージを見て対応します。


1.よく見るメッセージ

■サービスの応答までにx秒以上かかる

■サービスが落ちている

■メールキューがxxxx以上になっている

■snmpの値が取得出来ない

■ディスク使用率が閾値を超えている


2.ホスト障害

サーバとの接続ができない状態。


3.サービス障害

HTTP/HTTPS及びドメイン監視で検知した場合

■判断基準

実際にページにアクセスする
http://「IPアドレス」/

https://「IPアドレス」/

ページの表示がされない、遅い場合はサーバにログインして
MaxClientsの上限に達していないか確認。

ポートが開いているか確認

Apacheのプロセスを確認

接続数上限を確認

立ち上がってるプロセスを確認

設定されているMaxClientsと立ち上がっているプロセスを比べて
下記になっているとアクセス集中などが発生している場合がある。

対応方法

Apacheが起動してない場合

MaxClientsを少し上げてみる

※httpd.confのバックアップ!!

テストで問題無ければApacheをgraceful or restart or reload する


Mysql

プロセス確認

起動していなかったら起動します


FTP

ポートの確認

対応方法

起動していなかったら起動します


POP

POPのポート(110)に対して接続確認

例)

対応方法

接続遅延=アタックの可能性が高い

netstatやログを確認し、IPブロックをする

例)

上の場合、178.216.51.67からアタック来ているのが分かるので、whoisで確認。

このIPアドレスを弾きます


少し長くなってしまったので、

残りの対応方法は後日ブログします!!

(・∀・)つ

The following two tabs change content below.

あだちん

1989年生まれ。 SRE/CRE。ラッパー担当。2013年新卒に自宅サーバを構築し、この技術ブログを立ち上げたが、 2017年に電源が壊れConoHaにリプレイスした。 好きな構成管理ツールはAnsible,Terraform。インフラならAWS/Docker。言語歴:Python,Golang。WEBサーバならH2O。そして「脆弱性スキャナVuls」のOSS活動もしており、広報/エバンジェリスト/VulsRepo init file,chatwork通知のコントリビュータでもある。現在では分析基盤を担当しておりDigdag,embulk,BigQueryを使いこなそうと奮闘中。

コメントを残す