應急響應
Vibe Prompt
「幫我設計一個 Incident Response Playbook:偵測 → 分級 → 回應 → 修復 → 覆盤。」
Incident 分級
| 等級 | 說明 | 回應時間 | 範例 | |------|------|---------|------| | P0 | 核心服務中斷 | 5 分鐘 | 資料庫掛了 | | P1 | 主要功能受損 | 15 分鐘 | API 變慢 | | P2 | 部分功能異常 | 1 小時 | 非核心 bug | | P3 | 輕微問題 | 24 小時 | UI 小問題 |
回應流程
1. 偵測(Monitoring Alert / 用戶回報)
2. 分類(確定 severity)
3. 回應(建立 war room)
4. 診斷(查看 logs, metrics, traces)
5. 緩解(止血:rollback / feature flag / scale up)
6. 修復(根本原因修復)
7. 覆盤(撰寫 Postmortem)
Postmortem 範本
# 事後覆盤報告
## 日期:2026-07-01
## 影響:API 不可用 23 分鐘
## 根因:資料庫連線池耗盡
## 時間線
- 14:00 — 部署新版本
- 14:05 — PagerDuty 告警
- 14:07 — 工程師上線
- 14:15 — 發現 DB 連線池滿
- 14:20 — 重啟 DB 連線池 + 擴容
- 14:23 — 恢復正常
- 14:30 — 開始覆盤
## 行動項目
- [ ] 設定連線池上限監控
- [ ] 部署前自動測試連線數
- [ ] 加入準備好的 rollback 腳本
- [ ] 本週五前完成