■稀に「Zabbix agent on xxxxxx is unreachable for 5 minutes」とかなってソワソワする。
CopyContentDetectorでは30台以上のサーバが利用されていて、zabbixを使って監視しています。
稀にアラートメールで「Zabbix agent on xxxxxx is unreachable for 5 minutes」とか来てざわざわすることがありました。これ、サーバが死んでいるときとかに出るやつですね。この前はデータベースサーバでunreachableが来てゾッとしました。
でも、調べてみるとサービス自体は全然だいじょうぶだし、サーバ自体も少し高負荷ではありますが、許容範囲内で動いている様子でした。
■原因
zabbixエージェントのログを見ると、以下のログがちょろちょろ出ていました。
active check configuration update from [xxxxxxx:10051] started to fail (cannot connect to [[xxxxxxxx]:10051]: [4] Interrupted system call)
高負荷気味のときに起こるので、ネットワークのタイムアウトかしら。。
ということで、Google先生に確認して、zabbixサーバ側で以下の設定をして様子をみてみました。デフォルト3秒のタイムアウトの時間を長くしたのです。
### Option: Timeout
# Specifies how long we wait for agent, SNMP device or external check (in seconds).
#
# Mandatory: no
# Range: 1-30
# Default:
# Timeout=3
Timeout = 10
見事解消できました。結局原因は、高負荷時にネットワークのタイムアウトがでてunreachableという感じでした。これで、安心して眠れるよ。