🚀 SRE 網站可靠性工程

Vibe Prompt

「幫我設計一個系統的 SLO:API 可用性 99.9%、P95 延遲 <200ms,並計算錯誤預算與應對策略。」

你會學到

  • ✅ SLI / SLO / SLA
  • ✅ 錯誤預算 (Error Budget)
  • ✅ 應急響應流程
  • ✅ 事後覆盤 (Postmortem)
  • ✅ 容量規劃與壓測


課程導覽:這堂課你會學到什麼?

SRE(Site Reliability Engineering)是 Google 將軟體工程應用於維運的方法論。這堂課從量化可靠度到建立觀測平台,完整涵蓋 SRE 的核心實踐。

課程內容

| 章節 | 主題 | 核心概念 | 實作工具 | |:----|:----|:--------|:--------| | 第一章 | SLO/SLI | 可靠度量化、Error Budget | PromQL 查詢 | | 第二章 | Incident Response | 事件分級、Postmortem | PagerDuty、Runbook | | 第三章 | 容量規劃 | 流量預測、Threshold | Linear Regression、Auto Scaling | | 第四章 | 混沌工程 | 故障注入、爆炸半徑 | Chaos Mesh、Gremlin | | 第五章 | SRE 儀表板 | 三層儀表板、多視窗率告警 | Grafana、Prometheus |

為什麼要學 SRE?

沒有 SRE 的團隊是「火災模式」——系統出問題才急忙處理,處理完也沒有學到教訓。SRE 提供了一套系統性的方法來管理服務的可靠度,讓你可以從被動救火進階到主動預防。

這些不是理論——Google、Netflix、Amazon 每天都在用這些方法確保服務穩定性。學會 SRE,你不只能寫 code,還能確保 code 在 production 穩定運作。

誰適合學這堂課?

  • 後端工程師:想了解如何監控和維護 production 服務
  • DevOps 工程師:想建立完整的觀測平台
  • 技術主管:想量化團隊的服務品質
  • 接案開發者:想確保上線後的服務穩定