通过分析数据看板进行业务数据分析时,可以基于协作空间、团队、人员等多种维度统计和分析故障的数据,并且支持下载和导出数据,实现以数据驱动业务增长。关键特性#
多维度分析:从全局和时间维度,扩展到按团队、空间、个人等维度进行查看,全方位了解团队运维效能。
灵活下钻:支持从全局视图下钻到各子维度,进行深入的指标分析,快速定位问题所在。
数据对比:在不同维度间进行数据对比,发现团队间的差异和改进空间。
数据导出:支持将数据导出为 CSV 文件,方便进行进一步的数据分析和报告生成。
筛选条件#
自定义筛选条件时,系统会记录选选中的条件,即使刷新页面,选中的条件也会保留,但当前用户的操作并不会影响其他用户团队:选择需要查询的团队名称,支持多选,选中后会按选中的团队更新仪表盘中的数据。
协作空间:选择需要查询的协作空间名称,支持多选,选中后会按选中的协作空间更新仪表盘中的数据。
严重程度:选择需要查询的严重程度,支持多选,选中后会按选中的严重程度更新仪表盘中的数据。
时间范围:选择需要查询的时间范围,支持按本周、最近两周、本月、上个月以及自定义时间的维度进行查询,但最多支持查询最近180天的数据。
数据间隔:支持天、周、月的维度进行查询,默认按小时进行查询,但查询的时间范围大于31天时,无法以天的维度进行预览。
排序:团队、协作空间和个人维度的仪表盘可以选择倒排和正排,默认只显示 TOP 10的数据,单独放大后可以展示更多。
按小时拆分#
当我们需要进行24小时 on-call 时,为了区别不同时间段对团队成员的影响差异,所以我们将时间划分为三个阶段工作时间:周一到周五 8am~7pm,团队正常工作的黄金时段。
休息时间:周一到周五 7pm~11pm,非工作日 8am~11pm,团队成员的休息或娱乐时间。
睡眠时间:每天的 11pm~8am,这个时间段的打扰会严重影响团队成员的休息质量。
指标释义#
被收敛的故障不会触发通知,因为这类故障通常可以定义为可以被忽略的故障,所以所有指标的统计均不包含被收敛的故障MTTA:平均认领故障的耗时(认领时间减去故障发生时间为认领耗时),未产生认领动作的故障不在计算范围内。
MTTR:平均恢复故障的耗时(故障关闭时间减去故障发生时间为恢复耗时),个人指标中不包含 MTTR。
响应比例:统计响应比例,计算公式:响应比 = (认领故障数 / 故障数) * 100% 。
响应投入:处理人员参与故障处理的耗时总和,通过计算成员在认领故障到恢复故障之间的时间差值求和,可以粗略估计成员花在故障响应中的实际时间投入。
中断次数:仅统计短信、语音、APP推送三种渠道的分派通知。一个响应人员多渠道同时推送仅算一次中断,如果距离上一次通知不超过1分钟,不算中断。
关于MTTR
在计算平均故障恢复时间(MTTR)时,系统无法精确判断故障是否因人员干预而得以恢复。因此,在计算整体 MTTR 时,并不统计个人的 MTTR 数据。故障恢复可能涉及多种情形,例如自动告警触发的自动恢复、人工手动关闭、系统超时自动关闭,或者同一故障有多名成员参与处理等。所以为了确保 MTTR 的准确性,系统专注于故障从发生到解决的总时间,而不单独评估成员贡献的具体影响。关于数据延迟
由于系统计算数据需要一定的时间,所以查询当前数据时可能会出现一小时左右的延迟。
告警 TOP#
全局维度可以查看告警检查项和告警对象的 TOP 20 的数据告警检查项:按照告警检查项(来自告警的 check 标签)对告警事件进行聚合排序,建议对频繁发生的告警检查项进行调整。
告警对象:按照告警对象(来自告警的 resource 标签)对告警事件进行聚合排序,建议对频繁发生的告警对象进行优化。
数据下载和导出#
数据下载#
所有维度均支持将仪表盘以 PDF 格式下载到本地,方便进行进一步的数据分析和报告生成数据导出#
以 CSV 格式导出故障列表数据,支持将故障列表、团队、协作空间和个人维度数据导出,但导出的数据并不会按照展示的字段进行导出导出限制#
故障列表导出时,不包含 Labels 数据,如果需要更详细的数据,建议通过故障列表的API查询。 数据列表的查询和导出的数据量最大是10万条,如果需要更多数据,建议分时间段导出。
常见问题#
想要查询更久的数据怎么办?
目前分析看板中仅支持查询最近180天的数据,如果需要查询更久的数据,可以通过 API 查询。 为什么查询数据的时间范围超过31天后,不能以天的维度查看数据
仪表盘的折线图最多支持31个点,所以查询数据的时间范围超过31天后,无法以天的维度查看数据。