🚀 SRE 網站可靠性工程
Vibe Prompt
「幫我設計一個系統的 SLO:API 可用性 99.9%、P95 延遲 <200ms,並計算錯誤預算與應對策略。」
你會學到
- ✅ SLI / SLO / SLA
- ✅ 錯誤預算 (Error Budget)
- ✅ 應急響應流程
- ✅ 事後覆盤 (Postmortem)
- ✅ 容量規劃與壓測
課程導覽:這堂課你會學到什麼?
SRE(Site Reliability Engineering)是 Google 將軟體工程應用於維運的方法論。這堂課從量化可靠度到建立觀測平台,完整涵蓋 SRE 的核心實踐。
課程內容
| 章節 | 主題 | 核心概念 | 實作工具 | |:----|:----|:--------|:--------| | 第一章 | SLO/SLI | 可靠度量化、Error Budget | PromQL 查詢 | | 第二章 | Incident Response | 事件分級、Postmortem | PagerDuty、Runbook | | 第三章 | 容量規劃 | 流量預測、Threshold | Linear Regression、Auto Scaling | | 第四章 | 混沌工程 | 故障注入、爆炸半徑 | Chaos Mesh、Gremlin | | 第五章 | SRE 儀表板 | 三層儀表板、多視窗率告警 | Grafana、Prometheus |
為什麼要學 SRE?
沒有 SRE 的團隊是「火災模式」——系統出問題才急忙處理,處理完也沒有學到教訓。SRE 提供了一套系統性的方法來管理服務的可靠度,讓你可以從被動救火進階到主動預防。
這些不是理論——Google、Netflix、Amazon 每天都在用這些方法確保服務穩定性。學會 SRE,你不只能寫 code,還能確保 code 在 production 穩定運作。
誰適合學這堂課?
- 後端工程師:想了解如何監控和維護 production 服務
- DevOps 工程師:想建立完整的觀測平台
- 技術主管:想量化團隊的服務品質
- 接案開發者:想確保上線後的服務穩定