본문으로 건너뛰기

Sui Validator 알림 레퍼런스

Sui Validator 또는 풀 노드를 실행할 때는 노드의 health를 모니터링하고 문제에 대한 alert를 설정하는 것이 권장된다. crash와 기타 일반적인 문제에 대한 alert 외에도, 다음 예시 규칙을 기반으로 alerting을 구성할 수 있다.

다음 섹션은 alert 쿼리를 다루지만, 세부 사항은 인프라에 맞게 custom해야 한다.

높은 우선순위 health alert

이 alert들은 사용자 또는 팀이 가장 즉시 주의를 기울여야 한다.

Crash loop

이름Crash loop
요약Node가 crash loop 상태이다
기간15m 후 trigger 권장
max without(version) (uptime) < 60 or absent(uptime)

Node가 60초보다 오래 실행 상태를 유지하지 못한다. 가능한 이유:

  • Binary version이 너무 오래되었다.
  • 구성이 올바르지 않다.
  • Software bug가 있다.

스스로 해결할 수 없다면 Discord에서 Sui community에 알린다.

Consensus proposal failure

이름Consensus proposals failure
요약Consensus 블록 proposal rate가 낮다
기간1h 후 trigger 권장
sum without(force) (rate(consensus_proposed_blocks[5m])) < 1.0

consensus proposal rate가 느린 validator는 네트워크 지연 시간와 처리량에 악영향을 줄 수 있다. 보통 네트워크, disk 또는 CPU performance issue로 인해 발생한다.

체크포인트 execution rate가 낮음

이름Checkpoint execution rate is low
요약Validator가 체크포인트를 충분히 빠르게 실행하지 않는다
기간1h 후 trigger 권장
rate(last_executed_checkpoint[5m]) < 1.0

체크포인트 execution이 느린 validator와 풀 노드는 네트워크의 최신 정보를 보유하지 못한다. 보통 네트워크, disk 또는 CPU performance issue로 인해 발생한다.

Reconfiguration 중 safe mode

이름Safe mode during reconfiguration
요약Validator 또는 풀 노드가 에포크 advance에 실패하고 safe mode에 진입했다
기간15m 후 trigger 권장
is_safe_mode > 0.5

보통 이 문제는 validator 또는 풀 노드 operator가 제어할 수 있는 범위를 벗어난다. 이 상황이 관찰되면 Discord에서 Sui community에 알린다.

긴급하지 않은 alert와 warning

모든 alert는 중요하지만, 다음 alert와 warning은 일반적인 node maintenance workflow 안에서 처리할 수 있다.

System invariant violation

이름System invariant violations
요약Node가 invariant violation을 보고한다
기간15m 후 trigger 권장
system_invariant_violations > 0

보통 이 문제는 validator 또는 풀 노드 operator가 제어할 수 있는 범위를 벗어난다. 이 상황이 관찰되면 Discord에서 Sui community에 알린다.