Sui Validator 알림 레퍼런스
Sui Validator 또는 full node를 실행할 때는 node의 health를 모니터링하고 문제에 대한 alert를 설정하는 것이 권장된다. crash와 기타 일반적인 문제에 대한 alert 외에도, 다음 예시 규칙을 기반으로 alerting을 구성할 수 있다.
다음 섹션은 alert query를 다루지만, 세부 사항은 인프라에 맞게 custom해야 한다.
높은 우선순위의 health alert
이 alert들은 사용자 또는 팀이 가장 즉시 주의를 기울여야 한다.
Crash loop
| Key | 값 |
|---|---|
| 이름 | Crash loop |
| 요약 | Node가 crash loop 상태이다 |
| 기간 | 15m 후 trigger 권장 |
max without(version) (uptime) < 60 or absent(uptime)
Node가 60초보다 오래 실행 상태를 유지하지 못한다. 가능한 이유:
- Binary version이 너무 오래되었다.
- 구성이 올바르지 않다.
- Software bug가 있다.
스스로 해결할 수 없다면 Discord에서 Sui community에 알린다.
Consensus proposal failure
| Key | 값 |
|---|---|
| 이름 | Consensus proposals failure |
| 요약 | Consensus block proposal rate가 낮다 |
| 기간 | 1h 후 trigger 권장 |
sum without(force) (rate(consensus_proposed_blocks[5m])) < 1.0
consensus proposal rate가 느린 validator는 network latency와 throughput에 악영향을 줄 수 있다. 보통 network, disk 또는 CPU performance issue로 인해 발생한다.
Checkpoint execution rate가 낮음
| Key | 값 |
|---|---|
| 이름 | Checkpoint execution rate is low |
| 요약 | Validator가 checkpoints를 충분히 빠르게 실행하지 않는다 |
| 기간 | 1h 후 trigger 권장 |
rate(last_executed_checkpoint[5m]) < 1.0
checkpoint execution이 느린 validator와 full node는 network의 최신 정보를 보유하지 못한다. 보통 network, disk 또는 CPU performance issue로 인해 발생한다.
Reconfiguration 중 safe mode
| Key | 값 |
|---|---|
| 이름 | Safe mode during reconfiguration |
| 요약 | Validator 또는 full node가 epoch advance에 실패하고 safe mode에 진입했다 |
| 기간 | 15m 후 trigger 권장 |
is_safe_mode > 0.5
보통 이 문제는 validator 또는 full node operator가 제어할 수 있는 범위를 벗어난다. 이 상황이 관찰되면 Discord에서 Sui community에 알린다.