(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100$A 代表查询结果的值。$A > 90(内存使用率超过 90% 触发严重告警)$A > 80(内存使用率超过 80% 触发警告告警)$A > 90 and $B < 50)。cpu_usage_percent{instance="host-1", job="node"},查询 B 返回 mem_usage_percent{instance="host-1", job="node"},则 $A 和 $B 可以成功关联。disk="/"),而查询 B 没有,则无法关联。建议在 PromQL 中使用 sum by (...) 或 avg by (...) 等聚合操作,显式控制返回的标签,确保多条查询结果的标签一致。$A < 75),只有当数值回落到指定水平才算恢复,避免在阈值附近频繁震荡。${label_name}),这些变量会被自动替换为告警事件中对应的标签值。这使得恢复查询能够针对具体的告警对象(如特定的 instance 或 device)进行精确检测。(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 90up{instance="${instance}"} == 1 来确认服务恢复),查到数据才算恢复。这个 QL 中引入了变量 ${instance},会被替换为告警事件中的具体标签值。up{job="my-service"}absent() 函数absent() 函数需要把指标的每个标识类的标签组合都列举出来,比如 absent(up{instance="host-1"}),如果有多个实例就需要多条语句。${label_name} 引用标签值。instance="host-1" 和 job="node",则在恢复查询中可以这样写:up{instance="${instance}", job="${job}"} == 1${instance} 替换为 host-1,${job} 替换为 node,也就是告警事件标签中的具体值。mem_usage_percent 负载情况,展示在告警详情中,辅助排查。${label_name} 变量,用于针对具体告警对象查询。$relates,您可以查看 备注描述 的详细使用说明。