SREダッシュボードとRunbook

🔥 Vibe プロンプト

「SREダッシュボードを作成:SLO準拠、バーンレート、オンコールステータス。一般的なインシデントのRunbookを自動化。」

SREダッシュボード

SLO準拠 (30日)
├── 可用性: 99.92% (SLO: 99.9%) ✅
├── レイテンシp99: 320ms (SLO: 500ms) ✅
└── エラーバジェット残: 67% ✅

バーンレート (1時間)
├── 可用性: 0.02% 消費

インシデントサマリー
├── 24時間: SEV-1:0, SEV-2:1, SEV-3:3
└── MTTR (30日): 28分

自動Runbook

def cpu_runbook():
    # 1. 原因特定
    top = subprocess.run(["kubectl", "top", "pods", "-n", "production"], capture_output=True, text=True)
    culprit = max(top.stdout.strip().split("\n")[1:], key=lambda l: float(l.split()[1].replace("m","")))
    pod_name = culprit.split()[0]
    
    # 2. ログ確認
    logs = subprocess.run(["kubectl", "logs", "--tail=100", pod_name, "-n", "production"], capture_output=True, text=True)
    
    # 3. 既知パターンチェック
    if "OOM" in logs.stdout:
        action = "メモリ制限増加"
    else:
        action = "レプリカ増加 + 調査"
    
    # 4. 自動修復
    subprocess.run(["kubectl", "scale", "deploy", pod_name.rsplit("-",1)[0], "--replicas=10", "-n", "production"])
    print(f"Runbook実行: {action}")

自動化レベル

| レベル | 説明 | |-------|------| | L1 | 手動(ドキュメント参照) | | L2 | 半自動(ボタンクリック) | | L3 | 完全自動(人間不要) | | L4 | 予測(事前防止) |

一般的なRunbook

| インシデント | Runbook | |------------|---------| | CPU急上昇 | スケールアップ、リーク確認 | | メモリリーク | 再起動、制限増加 | | DB遅延 | スロークエリ確認、インデックス追加 | | ディスク満杯 | ログ削除、PV増加 |

DevOpsコース完了!🎉

  • ✅ Docker Compose
  • ✅ Kubernetes & Helm
  • ✅ Cloud AWS
  • ✅ Serverless
  • ✅ 監視
  • ✅ GitOps
  • ✅ SRE

重要なポイント

  • コアコンセプトをしっかり理解する
  • ハンズオンコード例で実践する
  • 実世界の問題に応用する
  • 演習で知識を強化する

さらに学ぶ

  • 公式ドキュメント
  • GitHubのオープンソースプロジェクト
  • コミュニティフォーラムとディスカッション
  • 関連コースとチュートリアル

完全なチュートリアルをロック解除

このチャプターは有料コンテンツです。プロジェクトに参加して、10以上の神レベルのPromptや実際のソースコード例を含む、5000字以上の深い分析をロック解除してください!