본문으로 건너뛰기

Sui Validator 알림 레퍼런스

Sui Validator 또는 full node를 실행할 때는 node의 health를 모니터링하고 문제에 대한 alert를 설정하는 것이 권장된다. crash와 기타 일반적인 문제에 대한 alert 외에도, 다음 예시 규칙을 기반으로 alerting을 구성할 수 있다.

다음 섹션은 alert query를 다루지만, 세부 사항은 인프라에 맞게 custom해야 한다.

높은 우선순위의 health alert

이 alert들은 사용자 또는 팀이 가장 즉시 주의를 기울여야 한다.

Crash loop

Key
이름Crash loop
요약Node가 crash loop 상태이다
기간15m 후 trigger 권장
max without(version) (uptime) < 60 or absent(uptime)

Node가 60초보다 오래 실행 상태를 유지하지 못한다. 가능한 이유:

  • Binary version이 너무 오래되었다.
  • 구성이 올바르지 않다.
  • Software bug가 있다.

스스로 해결할 수 없다면 Discord에서 Sui community에 알린다.

Consensus proposal failure

Key
이름Consensus proposals failure
요약Consensus block proposal rate가 낮다
기간1h 후 trigger 권장
sum without(force) (rate(consensus_proposed_blocks[5m])) < 1.0

consensus proposal rate가 느린 validator는 network latency와 throughput에 악영향을 줄 수 있다. 보통 network, disk 또는 CPU performance issue로 인해 발생한다.

Checkpoint execution rate가 낮음

Key
이름Checkpoint execution rate is low
요약Validator가 checkpoints를 충분히 빠르게 실행하지 않는다
기간1h 후 trigger 권장
rate(last_executed_checkpoint[5m]) < 1.0

checkpoint execution이 느린 validator와 full node는 network의 최신 정보를 보유하지 못한다. 보통 network, disk 또는 CPU performance issue로 인해 발생한다.

Reconfiguration 중 safe mode

Key
이름Safe mode during reconfiguration
요약Validator 또는 full node가 epoch advance에 실패하고 safe mode에 진입했다
기간15m 후 trigger 권장
is_safe_mode > 0.5

보통 이 문제는 validator 또는 full node operator가 제어할 수 있는 범위를 벗어난다. 이 상황이 관찰되면 Discord에서 Sui community에 알린다.

긴급하지 않은 alert와 warning

모든 alert는 중요하지만, 다음 alert와 warning은 일반적인 node maintenance workflow 안에서 처리할 수 있다.

System invariant violation

Key
이름System invariant violations
요약Node가 invariant violation을 보고한다
기간15m 후 trigger 권장
system_invariant_violations > 0

보통 이 문제는 validator 또는 full node operator가 제어할 수 있는 범위를 벗어난다. 이 상황이 관찰되면 Discord에서 Sui community에 알린다.