インシデント対応
🔥 Vibe プロンプト
「インシデント対応プロセスを設計:検出、ページング、トリアージ、緩和、解決、事後分析。オンコールローテーションを設定。」
インシデントライフサイクル
検出 → ページング → トリアージ → 緩和 → 解決 → 事後分析
重大度レベル
| レベル | 説明 | 対応時間 | 例 | |-------|------|---------|-----| | SEV-1 | 完全停止 | 5分 | 全ユーザーログイン不可 | | SEV-2 | 部分停止 | 15分 | 10%のユーザーが遅延 | | SEV-3 | 機能低下 | 1時間 | 機能Xが壊れた | | SEV-4 | 軽微 | 翌営業日 | 軽微なバグ |
事後分析テンプレート
# Postmortem: [タイトル]
## サマリー
- 発生日時: YYYY-MM-DD HH:MM UTC
- 期間: X時間Y分
- 影響: Xユーザー影響、$Y収益損失
## タイムライン
- HH:MM UTC - アラート発報
- HH:MM UTC - エンジニアページング
- HH:MM UTC - 原因特定
- HH:MM UTC - 復旧
## アクションアイテム
- [ ] Xを修正
- [ ] Yのアラート追加
非難しない文化
- 非難ではなくシステムに注目
- 完全なタイムライン
- 根本原因分析
- 具体的なアクションアイテム
- 広く共有
章のまとめ
- コアコンセプトと原理を理解
- 実装方法とテクニックを習得
- 一般的な問題と解決策に精通
- 実際のプロジェクトに適用可能
さらに読む
- 公式ドキュメントとAPIリファレンス
- GitHubのオープンソース例
- 技術書とオンラインコース
- コミュニティディスカッションと技術ブログ
実装例
基本例
# 完全な実装例を提供します
手順
- セットアップ: 開発環境の設定
- データ: 必要なデータの準備
- 実装: コア機能の構築
- テスト: 動作確認
- 最適化: パフォーマンスの向上
よくあるエラー
| エラー種別 | 原因 | 解決方法 | |-----------|------|---------| | コンパイル | 構文 | コードの構文を確認 | | 実行時 | 環境 | 依存パッケージの確認 | | 論理 | アルゴリズム | ステップごとのデバッグ | | パフォーマンス | 効率 | プロファイラーの使用 |
コード例
import sys
def main():
print("Hello, World!")
if __name__ == "__main__":
main()
参考資料
- 公式ドキュメント
- APIリファレンス
- オープンソース例
- コミュニティディスカッション