Sui validator 알림 레퍼런스
Sui validator 노드 또는 풀 노드를 운영할 때 다음 metrics의 일부 또는 전부를 기준으로 alert를 구성할 수 있다.
Alert reference
다음 섹션은 alert 설정을 다루지만, 세부 사항은 다 음과 같은 방식으로 커스터마이즈하도록 되어 있다:
$network를 실제 네트워크 label(예:mainnet,testnet)로 바꾼다.- 임계값은 stake 단위가 약 10,000이라고 가정하므로, 자체 validator set 크기에 맞게 조정한다.
host및container같은 labels는 인프라에 독립적이도록 제거한다.
High-priority chain health alerts (validator-specific)
이 alert는 본인 또는 팀이 가장 우선적으로 대응해야 한다.
Safe mode during reconfiguration
| Key | Value |
|---|---|
| Name | Safe Mode during Reconfiguration |
| Summary | Epoch 진행에 실패해 chain이 safe mode에 진입했다 |
| Duration | 5m |
is_safe_mode{network="$network"} > 0.5 or absent(is_safe_mode{network="$network"})
Consensus proposals failure
| Key | Value |
|---|---|
| Name | Consensus Proposals Failure |
| Summary | stake의 80% 미만만 consensus blocks를 제안하고 있다 |
| Duration | 5m |
sum(
sum by (host) (current_voting_right{network="$network"})
and
sum by (host) (rate(consensus_proposed_blocks{network="$network"}[5m])) > 0
) < 8000
Checkpoint execution rate is low
| Key | Value |
|---|---|
| Name | Checkpoint Execution Rate Is Low |
| Summary | stake의 80% 미만만 충분히 빠르게 checkpoints를 실행하고 있다 |
| Duration | 5m |
sum(
sum by (host) (current_voting_right{network="$network"})
and
sum by (host) (rate(last_executed_checkpoint{network="$network"}[5m])) > 2
) < 8000
Certificate execution latencies are high
| Key | Value |
|---|---|
| Name | Certificate execution latencies are high |
| Summary | stake의 80% 미만만 충분히 낮은 지연 시간으로 shared-object tx certs를 처리하고 있다 |
| Duration | 5m |
sum(
sum by (host) (current_voting_right{network="$network"})
and
histogram_quantile(0.95, sum by (le, host) (
rate(validator_service_handle_certificate_consensus_latency_bucket{network="$network"}[5m])
)) < 3
) < 8000
Randomness DKG failure
| Key | Value |
|---|---|
| Name | RandomnessDkgFailure |
| Summary | 하나 이상의 host에서 random beacon DKG가 실패했다 |
| Duration | 5m |
epoch_random_beacon_dkg_failed{network="$network"} > 0 or absent(is_safe_mode{network="$network"})
Validators not upgraded
| Key | Value |
|---|---|
| Name | Mysten validators are not upgraded |
| Summary | validators가 protocol version에서 뒤처져 있다 |
| Duration | 1h |
min(sui_configured_max_protocol_version{network="$network", host=~"Mysten-.*"})
< quantile(0.34, sui_configured_max_protocol_version{network="$network"})
⚠️ Non-urgent and warning alerts
모든 alert가 중요하지만, 다음 alert와 warning은 일반적인 node 유지보수 워크플로 안에서 대응할 수 있다.
Consensus sequencing p99 latency high
| Key | Value |
|---|---|
| Name | Consensus sequencing p99 latencies are high |
| Summary | stake의 80% 미만만 허용 가능한 지연 시간으로 tx certs를 sequencing하고 있다 |
| Duration | 1m |
sum(
sum by (host) (current_voting_right{network="$network"})
and
histogram_quantile(0.95, sum by (le, host) (
rate(sequencing_certificate_latency_bucket{network="$network", position="0", tx_type=~"shared_certificate|owned_certificate|soft_bundle"}[2m])
)) < 2
) < 5000
System invariant violations
| Key | Value |
|---|---|
| Name | System Invariant Violations |
| Summary | 시스템 invariant 위반이 보고되었다 |
| Duration | 1m |
max(system_invariant_violations{network="$network"}) > 0