Loading... 好的,这是对您上传的 **《The SRE Report 2025 Catchpoint.pdf》** 报告的梳理总结。 ## Catchpoint 2025 SRE 报告摘要 [cite_start]**《The SRE Report 2025》(第七版)** 是基于年度 SRE 调查所撰写的一份独立研究报告 [cite: 1683, 1686][cite_start]。报告旨在客观呈现数据,以推动可靠性和弹性实践的进步 [cite: 1685, 1689][cite_start]。本报告探讨了包括时间花费、管理层责任对可靠性认知的影响等传统主题,并新增了关于生产压力和数字性能成熟度等新研究 [cite: 1687, 1688]。报告的核心洞察如下: --- ### 洞察一:慢即是宕机(Slow is Officially the New Down) * [cite_start]**性能是新的黄金标准:** “慢即是宕机”的含义是糟糕的性能与完全宕机或不可用一样糟糕 [cite: 1713, 1719][cite_start]。这标志着性能思维的演变,强调了性能作为关键维度,超越了仅仅是正常运行时间(Uptime) [cite: 1714, 1802]。 * [cite_start]**组织共识:** 53% 的组织普遍认同“慢即是宕机”的说法 [cite: 1716, 1722]。 * [cite_start]**优先级:** 组织未来 12 个月内计划优先采纳的两大重点是 **站点可靠性工程 (SRE) (41%)** 和 **服务水平目标/体验水平目标 (SLOs/XLOs) (40%)** [cite: 1742, 1743][cite_start]。这强调了根据目标来追踪性能指标的必要性 [cite: 1736, 1738]。 * [cite_start]**持续优化机会:** 报告指出,持续的性能优化是一个重要的机会,因为客户的数字体验期望将不断提高 [cite: 1781, 1782, 1783]。 ### 洞察二:Toil(重复性工作)水平首次上升(与 AI 预期相反) * [cite_start]**Toil 上升:** 运营任务的负担有所增加,这是 Toil(手动、重复、可自动化、缺乏持久价值的工作)水平五年来首次上升 [cite: 1814, 1819, 1835]。 * [cite_start]2025 年,Toil 占工作时间的 **中位数上升至 20%**(2024 年为 14%) [cite: 1816]。 * [cite_start]运营活动花费的时间中位数从 2024 年的 25% **上升至 30%** [cite: 1834]。 * [cite_start]**对工程工作的影响:** 运营负荷的增加挤占了原本可用于主动工程努力的时间,限制了创新和战略发展能力 [cite: 1835, 1836]。 * [cite_start]**AI 的悖论:** 尽管人们普遍期望 AI 能够减少 Toil [cite: 1822][cite_start],但报告推测,AI 加速了有价值活动的实现,但节省下来的时间可能被 Toil 任务所填补 [cite: 1825, 1826][cite_start]。此外,AI 系统本身(例如,维护模型和运行大规模 GPU 集群)也成为了新的运营工作来源 [cite: 1850]。 ### 洞察三:组织优先级不稳定的风险 * [cite_start]**表面稳定:** 大多数团队(57%)认为组织优先级是稳定的 [cite: 1858][cite_start]。同时,多数组织(58%)认为 OKRs(目标与关键成果)得到了清晰传达,且可靠性挑战得到了解决(53%) [cite: 1864, 1874]。 * [cite_start]**速度与稳定性的冲突:** 尽管有这些积极认知,但仍有多数受访者感到有压力,需要**优先考虑发布时间表或截止日期,而非可靠性**(41% 经常/总是如此) [cite: 1887, 1889]。 * [cite_start]**核心关联:** **生产性能压力越频繁,组织的优先级就显得越不稳定** [cite: 1891, 1892]。 * [cite_start]**建议:** 组织优先级不可避免地会发生变化,因此可靠性实践者应在构建能力时,着重于提高**弹性**和**可重用性**,以应对新的或不同的业务优先级 [cite: 1895, 1896]。 ### 洞察四:单一界面还是多重痛苦? * [cite_start]**工具蔓延的定义:** 问题的关键不在于“技术栈中有多少工具”,而在于**监控/可观测性工具链所获得价值是否大于其总成本**(包括硬性资金和实施维护时间) [cite: 1919, 1920]。 * [cite_start]**多工具是常态:** 大多数组织使用 **2 到 10 个** 监控或可观测性工具(61% 使用 2-5 个,25% 使用 6-10 个) [cite: 1924, 1931][cite_start]。这是可以接受的,因为不同的技术栈(如应用栈与互联网栈)需要不同的工具来实现全面覆盖 [cite: 1927, 1928]。 * [cite_start]**可观测性水平不足:** 多数组织(51% 持“少于所需”的观点)认为其当前的可观测性水平不足 [cite: 1933]。 ### 洞察七(部分):承认差距,弥补差距 * [cite_start]**差距的存在:** 组织在“想象中的工作”(work-as-imagined)和“实际完成的工作”(work-as-done)之间存在可靠性和弹性实践的感知差距,这可能导致利益相关者之间的误解和沟通不畅 [cite: 1631]。 * [cite_start]**解决机会:** **承认这种差距的存在** 是将“可靠性即功能”(reliability-as-a-feature)实践向前推进的绝佳机会 [cite: 1634]。 * [cite_start]**弥合差距:** 弥合差距的关键在于建立**透明的沟通渠道**、**定期进行并更新评估**,并确保所有相关方都了解情况并参与决策过程 [cite: 1635]。 最后修改:2025 年 12 月 08 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏