Áú»¢¶Ä²©

6 Defini??es de host inalcan?¨¢vel/inacess¨ªvel

Vis?o geral

Diversos par?metros de configura??o definem como o Áú»¢¶Ä²© Server ir¨¢ agir quando uma verifica??o de agente (Áú»¢¶Ä²©, SNMP, IPMI, JMX) falhar e um host passar a se tornar inacess¨ªvel.

Host inacess¨ªvel

Um host ¨¦ considerado como inacess¨ªvel ap¨®s uma falha de verifica??o (erro de rede, 'timeout') com os agentes Áú»¢¶Ä²©, SNMP, IPMI ou JMX. Observe que as verifica??es ativas do Áú»¢¶Ä²© Agent n?o influenciam na disponibilidade do host.

A partir deste momento o par?metro UnreachableDelay define quando o host ser¨¢ verificado novamente usando um de seus itens (incluindo regras de descoberta LLD) para confirmar o seu estado de inacessibilidade e quais verifica??es ser?o refeitas pelos 'poolers' de inacessibilidade. O padr?o ¨¦ de 15 segundos antes da pr¨®xima verifica??o.

No log do Áú»¢¶Ä²© server a inacessibilidade ¨¦ indicada por mensagens como estas:

Áú»¢¶Ä²© agent item "system.cpu.load[percpu,avg1]" on host "New host" failed: first network error, wait for 15 seconds
       Áú»¢¶Ä²© agent item "system.cpu.load[percpu,avg15]" on host "New host" failed: another network error, wait for 15 seconds

Obseve que a chave exata de item que est¨¢ falhando e o seu tipo s?o indicados (Áú»¢¶Ä²© agent).

O par?metro Timeout tamb¨¦m afeta qu?o logo o host ser¨¢ verificado novamente durante o per¨ªodo de inacessibilidade. Se o Timeout ¨¦ de 20 segundos e o UnreachableDelay de 30 segundos, a pr¨®xima verifica??o ocorrer¨¢ 50 segundos ap¨®s a primeira tentativa.

Observe que o Áú»¢¶Ä²© tenta diferenciar o 'timeout' de um item do 'timeout' do host. Se outro item for coletado com sucesso entre as duas falhas de coleta do item problem¨¢tico, o item problem¨¢tico ser¨¢ marcado como n?o suportado e, ap¨®s a segunda falha, a acessibilidade do host n?o ser¨¢ afetada.

O par?metro UnreachablePeriod define a dura??o total da inacessibilidade, seu valor padr?o ¨¦ de 45 segundos. O UnreachablePeriod pode ser muitas vezes maior que o UnreachableDelay, isso permitir¨¢ que um host seja re-verificado mais vezes antes de se tornar inacess¨ªvel.

Se um host inacess¨ªvel retornar, o fato ser¨¢ registrado no log e sua monitora??o voltar¨¢ ao normal:

resuming Áú»¢¶Ä²© agent checks on host "New host": connection restored

Host indispon¨ªvel

Se, ap¨®s o per¨ªodo definido em UnreachablePeriod, o host n?o retornar, ele ser¨¢ tratado como indispon¨ªvel.

No log do Áú»¢¶Ä²© Server ser¨¢ registrada a ocorr¨ºncia com mensagens como esta:

temporarily disabling Áú»¢¶Ä²© agent checks on host "New host": host unavailable

e na interface web o ¨ªcone de disponibilidade do host para aquele tipo de interface ser¨¢ alterado de verde (ou cinza) para vermelho (observe que ao passar com o mouse sobre o ¨ªcone a descri??o do erro ser¨¢ apresentada):

O par?metro UnavailableDelay define a frequ¨ºncia com que um host ser¨¢ verificado durante sua indisponibilidade.

Por padr?o a cada 60 segundos (ent?o neste caso a "inativa??o tempor¨¢ria", registrada no log, indicar¨¢ que ser¨¢ feita uma nova verifica??o a cada minuto).

Quando a conex?o com o host for restaurada a monitora??o retornar¨¢ ao normal automaticamente e o fato ser¨¢ registrado no log tamb¨¦m:

enabling Áú»¢¶Ä²© agent checks on host "New host": host became available

Unavailable interface

After the UnreachablePeriod ends and the interface has not reappeared, the interface is treated as unavailable.

In the server log it is indicated by messages like these:

temporarily disabling Áú»¢¶Ä²© agent checks on host "New host": interface unavailable

and in the frontend the host availability icon goes from green/gray to yellow/red (the unreachable interface details can be seen in the hint box that is displayed when a mouse is positioned on the host availability icon):

The UnavailableDelay parameter defines how often an interface is checked during interface unavailability.

By default it is 60 seconds (so in this case "temporarily disabling", from the log message above, will mean disabling checks for one minute).

When the connection to the interface is restored, the monitoring returns to normal automatically, too:

enabling Áú»¢¶Ä²© agent checks on host "New host": interface became available