Sui Validator 알림 레퍼런스
Sui Validator 또는 풀 노드를 실행할 때는 노드의 health를 모니터링하고 문제에 대한 alert를 설정하는 것이 권장된다. crash와 기타 일반적인 문제에 대한 alert 외에도, 다음 예시 규칙을 기반으로 alerting을 구성할 수 있다.
다음 섹션은 alert 쿼리를 다루지만, 세부 사항은 인프라에 맞게 custom해야 한다.
높은 우선순위 health alert
이 alert들은 사용자 또는 팀이 가장 즉시 주의를 기울여야 한다.
Crash loop
| 키 | 값 |
|---|---|
| 이름 | Crash loop |
| 요약 | Node가 crash loop 상태이다 |
| 기간 | 15m 후 trigger 권장 |
max without(version) (uptime) < 60 or absent(uptime)
Node가 60초보다 오래 실행 상태를 유지하지 못한다. 가능한 이유:
- Binary version이 너무 오래되었다.
- 구성이 올바르지 않다.
- Software bug가 있다.
스스로 해결할 수 없다면 Discord에서 Sui community에 알린다.
Consensus proposal failure
| 키 | 값 |
|---|---|
| 이름 | Consensus proposals failure |
| 요약 | Consensus 블록 proposal rate가 낮다 |
| 기간 | 1h 후 trigger 권장 |
sum without(force) (rate(consensus_proposed_blocks[5m])) < 1.0
consensus proposal rate가 느린 validator는 네트워크 지연 시간와 처리량에 악영향을 줄 수 있다. 보통 네트워크, disk 또는 CPU performance issue로 인해 발생한다.
체크포인트 execution rate가 낮음
| 키 | 값 |
|---|---|
| 이름 | Checkpoint execution rate is low |
| 요약 | Validator가 체크포인트를 충분히 빠르게 실행하지 않는다 |
| 기간 | 1h 후 trigger 권장 |
rate(last_executed_checkpoint[5m]) < 1.0
체크포인트 execution이 느린 validator와 풀 노드는 네트워크의 최신 정보를 보유하지 못한다. 보통 네트워크, disk 또는 CPU performance issue로 인해 발생한다.
Reconfiguration 중 safe mode
| 키 | 값 |
|---|---|
| 이름 | Safe mode during reconfiguration |
| 요약 | Validator 또는 풀 노드가 에포크 advance에 실패하고 safe mode에 진입했다 |
| 기간 | 15m 후 trigger 권장 |
is_safe_mode > 0.5
보통 이 문제는 validator 또는 풀 노드 operator가 제어할 수 있는 범위를 벗어난다. 이 상황이 관찰되면 Discord에서 Sui community에 알린다.