Flashduty Docs
中文EnglishRoadmapAPI官网控制台
中文EnglishRoadmapAPI官网控制台
  1. 平台功能
  • 快速开始
    • 入门介绍
    • 快速开始
    • 常见问题
    • 产品对比
  • 故障管理
    • 什么是故障
    • 检索与查看故障
    • 处理与更新故障
    • 升级与分派故障
    • 自定义字段
    • 自定义操作
    • 了解降噪过程
    • 了解历史故障
    • 了解新奇故障
  • 配置Flashduty
    • 协作空间管理
    • 多种方式接入告警
    • 配置路由规则
    • 配置标签增强
    • 配置告警降噪
    • 配置分派策略
    • 故障静默与抑制
    • 配置值班规则
    • 配置通知模板
    • 配置服务日历
    • 配置个人信息
    • 配置过滤条件
    • 通知机器人
    • 告警处理 pipeline
  • 平台功能
    • 团队和成员
    • 了解权限设计
    • 配置单点登录
    • 分析数据
  • 高级功能
    • 引用变量
    • 动态分派
  • 集成引导
    • 告警集成
      • 邮件 Email 集成指引
      • 夜莺 Flashcat 集成指引
      • Prometheus 集成指引
      • 标准告警事件集成指引
      • Grafana 集成指引
      • Zabbix 集成指引
      • Uptime Kuma 集成指引
      • 阿里云 ARMS 集成指引
      • 阿里云监控 CM 事件集成指引
      • 阿里云监控 CM 指标集成指引
      • 阿里云 SLS 集成指引
      • AWS CloudWatch 集成指引
      • Azure Monitor 集成指引
      • 百度云监控 BCM 集成指引
      • 华为云监控 CES 集成指引
      • 腾讯云 CLS 集成指引
      • 腾讯云监控 CM 集成指引
      • 腾讯云 Event Bridge 集成指引
      • Influxdata 集成指引
      • Open Falcon 集成指引
      • Pagerduty 集成指引
      • 蓝鲸智云集成指引
      • OceanBase 集成指引
      • Graylog 集成指引
      • Skywalking 集成指引
      • Sentry 集成指引
      • 监控宝告警集成指引
      • AWS EventBridge 集成指引
      • Dynatrace 集成指引
      • 华为云 LTS 集成指引
      • GoogleCloud 集成指引
      • Splunk 集成指引
      • AppDynamics 集成指引
      • SolarWinds 集成指引
      • 火山引擎CM 指标集成指引
      • 火山引擎CM 事件集成指引
      • 火山引擎日志服务 TLS 集成指引
      • Opmanager 告警事件
      • Meraki 告警事件
      • 天翼云告警集成
      • 观测云告警事件
      • zilliz 告警事件
      • 华为云 APM 告警事件
      • zstack 告警事件
      • Keep 告警集成指引
      • ElastAlert2 告警集成
    • 即时消息
      • 飞书 Lark 集成指引
      • 钉钉 Dingtalk 集成指引
      • 企业微信 Wecom 集成指引
      • Slack 集成指引
      • Microsoft Teams 集成指引
    • 单点登录
      • Authing 集成指引
      • Keycloak 集成指引
      • OpenLDAP 集成指引
    • Webhooks
      • 告警 webhook
      • 故障 webhook
      • 自定义操作
    • 变更集成
      • 标准变更事件集成指引
  • 服务协议
    • 服务条款
    • 用户协议/隐私政策
    • SLA承诺
    • 数据安全
  1. 平台功能

分析数据

通过分析数据看板进行业务数据分析时,可以基于协作空间、团队、人员等多种维度统计和分析故障的数据,并且支持下载和导出数据,实现以数据驱动业务增长。

关键特性#

多维度分析:从全局和时间维度,扩展到按团队、空间、个人等维度进行查看,全方位了解团队运维效能。
灵活下钻:支持从全局视图下钻到各子维度,进行深入的指标分析,快速定位问题所在。
数据对比:在不同维度间进行数据对比,发现团队间的差异和改进空间。
数据导出:支持将数据导出为 CSV 文件,方便进行进一步的数据分析和报告生成。
drawing

筛选条件#

自定义筛选条件时,系统会记录选选中的条件,即使刷新页面,选中的条件也会保留,但当前用户的操作并不会影响其他用户
团队:选择需要查询的团队名称,支持多选,选中后会按选中的团队更新仪表盘中的数据。
协作空间:选择需要查询的协作空间名称,支持多选,选中后会按选中的协作空间更新仪表盘中的数据。
严重程度:选择需要查询的严重程度,支持多选,选中后会按选中的严重程度更新仪表盘中的数据。
时间范围:选择需要查询的时间范围,支持按本周、最近两周、本月、上个月以及自定义时间的维度进行查询,但最多支持查询最近180天的数据。
数据间隔:支持天、周、月的维度进行查询,默认按小时进行查询,但查询的时间范围大于31天时,无法以天的维度进行预览。
排序:团队、协作空间和个人维度的仪表盘可以选择倒排和正排,默认只显示 TOP 10的数据,单独放大后可以展示更多。

按小时拆分#

当我们需要进行24小时 on-call 时,为了区别不同时间段对团队成员的影响差异,所以我们将时间划分为三个阶段
工作时间:周一到周五 8am~7pm,团队正常工作的黄金时段。
休息时间:周一到周五 7pm~11pm,非工作日 8am~11pm,团队成员的休息或娱乐时间。
睡眠时间:每天的 11pm~8am,这个时间段的打扰会严重影响团队成员的休息质量。
drawing

指标释义#

被收敛的故障不会触发通知,因为这类故障通常可以定义为可以被忽略的故障,所以所有指标的统计均不包含被收敛的故障
故障数量:产生的故障数量,但不包括被收敛的故障。
MTTA:平均认领故障的耗时(认领时间减去故障发生时间为认领耗时),未产生认领动作的故障不在计算范围内。
MTTR:平均恢复故障的耗时(故障关闭时间减去故障发生时间为恢复耗时),个人指标中不包含 MTTR。
响应比例:统计响应比例,计算公式:响应比 = (认领故障数 / 故障数) * 100% 。
响应投入:处理人员参与故障处理的耗时总和,通过计算成员在认领故障到恢复故障之间的时间差值求和,可以粗略估计成员花在故障响应中的实际时间投入。
中断次数:仅统计短信、语音、APP推送三种渠道的分派通知。一个响应人员多渠道同时推送仅算一次中断,如果距离上一次通知不超过1分钟,不算中断。
提示
关于MTTR
在计算平均故障恢复时间(MTTR)时,系统无法精确判断故障是否因人员干预而得以恢复。因此,在计算整体 MTTR 时,并不统计个人的 MTTR 数据。故障恢复可能涉及多种情形,例如自动告警触发的自动恢复、人工手动关闭、系统超时自动关闭,或者同一故障有多名成员参与处理等。所以为了确保 MTTR 的准确性,系统专注于故障从发生到解决的总时间,而不单独评估成员贡献的具体影响。
关于数据延迟
由于系统计算数据需要一定的时间,所以查询当前数据时可能会出现一小时左右的延迟。

告警 TOP#

全局维度可以查看告警检查项和告警对象的 TOP 20 的数据
告警检查项:按照告警检查项(来自告警的 check 标签)对告警事件进行聚合排序,建议对频繁发生的告警检查项进行调整。
告警对象:按照告警对象(来自告警的 resource 标签)对告警事件进行聚合排序,建议对频繁发生的告警对象进行优化。

数据下载和导出#

数据下载#

所有维度均支持将仪表盘以 PDF 格式下载到本地,方便进行进一步的数据分析和报告生成
drawing

数据导出#

以 CSV 格式导出故障列表数据,支持将故障列表、团队、协作空间和个人维度数据导出,但导出的数据并不会按照展示的字段进行导出
drawing

导出限制#

故障列表导出时,不包含 Labels 数据,如果需要更详细的数据,建议通过故障列表的API查询。
数据列表的查询和导出的数据量最大是10万条,如果需要更多数据,建议分时间段导出。

常见问题#

想要查询更久的数据怎么办?
目前分析看板中仅支持查询最近180天的数据,如果需要查询更久的数据,可以通过 API 查询。
为什么查询数据的时间范围超过31天后,不能以天的维度查看数据
仪表盘的折线图最多支持31个点,所以查询数据的时间范围超过31天后,无法以天的维度查看数据。
修改于 2025-01-16 04:10:54
上一页
配置单点登录
下一页
引用变量
Built with