본문으로 건너뛰기

Sui validator 알림 레퍼런스

Sui validator 노드 또는 풀 노드를 운영할 때 다음 metrics의 일부 또는 전부를 기준으로 alert를 구성할 수 있다.

Alert reference

다음 섹션은 alert 설정을 다루지만, 세부 사항은 다음과 같은 방식으로 커스터마이즈하도록 되어 있다:

  • $network를 실제 네트워크 label(예: mainnet, testnet)로 바꾼다.
  • 임계값은 stake 단위가 약 10,000이라고 가정하므로, 자체 validator set 크기에 맞게 조정한다.
  • hostcontainer 같은 labels는 인프라에 독립적이도록 제거한다.

High-priority chain health alerts (validator-specific)

이 alert는 본인 또는 팀이 가장 우선적으로 대응해야 한다.

Safe mode during reconfiguration

KeyValue
NameSafe Mode during Reconfiguration
SummaryEpoch 진행에 실패해 chain이 safe mode에 진입했다
Duration5m
is_safe_mode{network="$network"} > 0.5 or absent(is_safe_mode{network="$network"})

Consensus proposals failure

KeyValue
NameConsensus Proposals Failure
Summarystake의 80% 미만만 consensus blocks를 제안하고 있다
Duration5m
sum(
sum by (host) (current_voting_right{network="$network"})
and
sum by (host) (rate(consensus_proposed_blocks{network="$network"}[5m])) > 0
) < 8000

Checkpoint execution rate is low

KeyValue
NameCheckpoint Execution Rate Is Low
Summarystake의 80% 미만만 충분히 빠르게 checkpoints를 실행하고 있다
Duration5m
sum(
sum by (host) (current_voting_right{network="$network"})
and
sum by (host) (rate(last_executed_checkpoint{network="$network"}[5m])) > 2
) < 8000

Certificate execution latencies are high

KeyValue
NameCertificate execution latencies are high
Summarystake의 80% 미만만 충분히 낮은 지연 시간으로 shared-object tx certs를 처리하고 있다
Duration5m
sum(
sum by (host) (current_voting_right{network="$network"})
and
histogram_quantile(0.95, sum by (le, host) (
rate(validator_service_handle_certificate_consensus_latency_bucket{network="$network"}[5m])
)) < 3
) < 8000

Randomness DKG failure

KeyValue
NameRandomnessDkgFailure
Summary하나 이상의 host에서 random beacon DKG가 실패했다
Duration5m
epoch_random_beacon_dkg_failed{network="$network"} > 0 or absent(is_safe_mode{network="$network"})

Validators not upgraded

KeyValue
NameMysten validators are not upgraded
Summaryvalidators가 protocol version에서 뒤처져 있다
Duration1h
min(sui_configured_max_protocol_version{network="$network", host=~"Mysten-.*"})
< quantile(0.34, sui_configured_max_protocol_version{network="$network"})

⚠️ Non-urgent and warning alerts

모든 alert가 중요하지만, 다음 alert와 warning은 일반적인 node 유지보수 워크플로 안에서 대응할 수 있다.

Consensus sequencing p99 latency high

KeyValue
NameConsensus sequencing p99 latencies are high
Summarystake의 80% 미만만 허용 가능한 지연 시간으로 tx certs를 sequencing하고 있다
Duration1m
sum(
sum by (host) (current_voting_right{network="$network"})
and
histogram_quantile(0.95, sum by (le, host) (
rate(sequencing_certificate_latency_bucket{network="$network", position="0", tx_type=~"shared_certificate|owned_certificate|soft_bundle"}[2m])
)) < 2
) < 5000

System invariant violations

KeyValue
NameSystem Invariant Violations
Summary시스템 invariant 위반이 보고되었다
Duration1m
max(system_invariant_violations{network="$network"}) > 0