Skip to main content

Incident Response สำหรับระบบ AI: Runbook แบบใช้งานจริง

runbook, alerting และ triage สำหรับ incident ของ AI: data, model, infra และพฤติกรรมสินค้า

OperationsCerebraTechAI Team1/5/2568

กำหนด severity และ SLO ให้ชัด ว่า “พัง” ของฟีเจอร์ AI หมายถึงอะไร

แยก failure mode ให้ได้: data pipeline, model serving, retrieval หรือพฤติกรรม UI/product

มีแผน rollback และเทมเพลตสื่อสารกับผู้เกี่ยวข้องไว้เสมอ