🚀 SRE 網站可靠性工程

Vibe Prompt

「幫我設計一個系統的 SLO：API 可用性 99.9%、P95 延遲 <200ms，並計算錯誤預算與應對策略。」

你會學到

✅ SLI / SLO / SLA
✅ 錯誤預算 (Error Budget)
✅ 應急響應流程
✅ 事後覆盤 (Postmortem)
✅ 容量規劃與壓測

課程導覽：這堂課你會學到什麼？

SRE（Site Reliability Engineering）是 Google 將軟體工程應用於維運的方法論。這堂課從量化可靠度到建立觀測平台，完整涵蓋 SRE 的核心實踐。

課程內容

| 章節 | 主題 | 核心概念 | 實作工具 | |:----|:----|:--------|:--------| | 第一章 | SLO/SLI | 可靠度量化、Error Budget | PromQL 查詢 | | 第二章 | Incident Response | 事件分級、Postmortem | PagerDuty、Runbook | | 第三章 | 容量規劃 | 流量預測、Threshold | Linear Regression、Auto Scaling | | 第四章 | 混沌工程 | 故障注入、爆炸半徑 | Chaos Mesh、Gremlin | | 第五章 | SRE 儀表板 | 三層儀表板、多視窗率告警 | Grafana、Prometheus |

為什麼要學 SRE？

沒有 SRE 的團隊是「火災模式」——系統出問題才急忙處理，處理完也沒有學到教訓。SRE 提供了一套系統性的方法來管理服務的可靠度，讓你可以從被動救火進階到主動預防。

這些不是理論——Google、Netflix、Amazon 每天都在用這些方法確保服務穩定性。學會 SRE，你不只能寫 code，還能確保 code 在 production 穩定運作。

誰適合學這堂課？

後端工程師：想了解如何監控和維護 production 服務
DevOps 工程師：想建立完整的觀測平台
技術主管：想量化團隊的服務品質
接案開發者：想確保上線後的服務穩定

🚀 SRE 網站可靠性工程

Vibe Prompt

你會學到

課程導覽：這堂課你會學到什麼？

課程內容

為什麼要學 SRE？

誰適合學這堂課？

課程章節目錄

SLO 與 SLI

應急響應與事後覆盤

容量規劃

Chaos Engineering

SRE 儀表板與 Runbook

實戰：SRE 儀表板