Zabbixの監視で高負荷時にサーバは生きているのに「Zabbix agent on xxxxxx is unreachable for 5 minutes」とかなる対策

Zabbix

■稀に「Zabbix agent on xxxxxx is unreachable for 5 minutes」とかなってソワソワする。

CopyContentDetectorでは30台以上のサーバが利用されていて、zabbixを使って監視しています。

稀にアラートメールで「Zabbix agent on xxxxxx is unreachable for 5 minutes」とか来てざわざわすることがありました。これ、サーバが死んでいるときとかに出るやつですね。この前はデータベースサーバでunreachableが来てゾッとしました。

でも、調べてみるとサービス自体は全然だいじょうぶだし、サーバ自体も少し高負荷ではありますが、許容範囲内で動いている様子でした。

 

■原因

zabbixエージェントのログを見ると、以下のログがちょろちょろ出ていました。

active check configuration update from [xxxxxxx:10051] started to fail (cannot connect to [[xxxxxxxx]:10051]: [4] Interrupted system call)

 

高負荷気味のときに起こるので、ネットワークのタイムアウトかしら。。

ということで、Google先生に確認して、zabbixサーバ側で以下の設定をして様子をみてみました。デフォルト3秒のタイムアウトの時間を長くしたのです。

### Option: Timeout
#       Specifies how long we wait for agent, SNMP device or external check (in seconds).
#
# Mandatory: no
# Range: 1-30
# Default:
# Timeout=3
Timeout = 10

 

 

見事解消できました。結局原因は、高負荷時にネットワークのタイムアウトがでてunreachableという感じでした。これで、安心して眠れるよ。