Pocket

どうも。Adachinです。

自分なりに障害対応についてまとめていきます。

運営するサーバで、

「サーバダウン、Web見れない、メール送れない、アタックか?」

これどうなってんの!?

はっかーこわいこわい。

先日、自鯖にてアタックが来ており、botを使って悪さしてた模様。

↑これらを素早く検知し、クライアントに連絡するのがサーバ管理のお仕事です。

今回はNagiosのエラーメッセージを見て対応します。


1.よく見るメッセージ

■サービスの応答までにx秒以上かかる

■サービスが落ちている

■メールキューがxxxx以上になっている

■snmpの値が取得出来ない

■ディスク使用率が閾値を超えている


2.ホスト障害

サーバとの接続ができない状態。


3.サービス障害

HTTP/HTTPS及びドメイン監視で検知した場合

■判断基準

実際にページにアクセスする
http://「IPアドレス」/

https://「IPアドレス」/

ページの表示がされない、遅い場合はサーバにログインして
MaxClientsの上限に達していないか確認。

ポートが開いているか確認

Apacheのプロセスを確認

接続数上限を確認

立ち上がってるプロセスを確認

設定されているMaxClientsと立ち上がっているプロセスを比べて
下記になっているとアクセス集中などが発生している場合がある。

対応方法

Apacheが起動してない場合

MaxClientsを少し上げてみる

※httpd.confのバックアップ!!

テストで問題無ければApacheをgraceful or restart or reload する


Mysql

プロセス確認

起動していなかったら起動します


FTP

ポートの確認

対応方法

起動していなかったら起動します


POP

POPのポート(110)に対して接続確認

例)

対応方法

接続遅延=アタックの可能性が高い

netstatやログを確認し、IPブロックをする

例)

上の場合、178.216.51.67からアタック来ているのが分かるので、whoisで確認。

このIPアドレスを弾きます


少し長くなってしまったので、

残りの対応方法は後日ブログします!!

(・∀・)つ

Pocket

カテゴリー: Blog監視障害対応

adachin

1989年生まれのSRE。ホスティングから大規模なアドテクなどのインフラエンジニアとして携わる。現在はサービスの信頼性向上、DevOps、可用性、レイテンシ、パフォーマンス、モニタリング、オブザーバビリティ、緊急対応、AWS/Azureでのインフラ構築、Docker開発環境の提供、Kubernetes保守、インフラコード化、新技術の検証、リファクタリング、セキュリティ強化などを担当している。個人事業主では数社サーバー保守とベンチャー企業のSREインフラコンサルティングやMENTAで未経験者にインフラのコーチング/コミュニティの運用を実施している。また、「脆弱性スキャナVuls」のOSS活動もしており、自称エバンジェリスト/技術広報/テクニカルサポート/コントリビュータでもある。

0件のコメント

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください