תוכנית תגובה לתקלות
סקירה כללית
המדריך הזה מגדיר כיצד מטפלים בתקלות ב-Agentix: סיווג חומרה, זיהוי, הסלמה, מענה, תקשורת ושיפור לאחר האירוע. מדריכים קשורים:- מדריך Deployment
- גיבוי ושחזור מסד נתונים
- Redis Persistence
- הגדרת Email Deliverability
- הגדרת Uptime Monitoring
1. רמות חומרה
| Level | שם | קריטריון | זמן תגובה |
|---|---|---|---|
| P1 | קריטי | השבתה מלאה או אובדן נתונים לכל הלקוחות | 15 דקות |
| P2 | חמור | פגיעה משמעותית במספר לקוחות או ביכולת ליבה | שעה |
| P3 | בינוני | פגיעה מוגבלת עם workaround | 4 שעות |
| P4 | נמוך | תקלה קוסמטית או שיפור | יום עסקים הבא |
2. זיהוי תקלה
מקורות זיהוי:- BetterStack health checks
- Sentry error alerts
- Railway deployment alerts
- דיווחי משתמשים
- זיהוי ידני על ידי הצוות
- בדיקת BetterStack
- בדיקת Sentry
- בדיקת לוגים ב-Railway
- בדיקת Vercel deployments
- בדיקת deploys אחרונים
- בדיקת Redis queues
- בדיקת PostgreSQL connectivity
3. הסלמה
| חומרה | מגיב ראשון | הסלמה אל |
|---|---|---|
| P1 | on-call engineer | CTO / founder |
| P2 | on-call engineer | team lead |
| P3 | assigned engineer | on-call engineer אם אין התקדמות |
| P4 | assigned engineer | ללא הסלמה |
main.
4. תהליך תגובה
שלב 1: Acknowledge
- ודאו שהאירוע אמיתי
- קבעו חומרה
- פתחו thread או issue למעקב
- הגדירו owner
- תעדו זמן התחלה
שלב 2: Assess
- הגדירו היקף פגיעה
- בדקו deploys מהשעתיים האחרונות
- נתחו שגיאות ב-Sentry ובלוגים
- זהו את הרכיב הפגוע: API, Web, DB, Redis, workers או שירות חיצוני
שלב 3: Contain
- תקלת deploy: rollback לגרסה יציבה
- תקלת DB: עצרו פעולות מסוכנות ואל תבצעו כתיבה ידנית בלי גיבוי
- תקלת ספק חיצוני: בדקו status page והתאימו fallback
שלב 4: Communicate
- ב-P1/P2 שלחו עדכון ראשוני ללקוחות בתוך 30 דקות
- עדכנו thread פנימי כל 30-60 דקות
שלב 5: Resolve
- יישמו את התיקון
- ודאו שהבעיה באמת נפתרה ולא רק הוסתרה
- בצעו אימות ב-production
שלב 6: Recover
- ודאו שכל השירותים חזרו לפעילות
- בדקו תורים, health checks ופעולות לקוח מרכזיות
שלב 7: Learn
- כתבו post-mortem
- תעדו root cause
- הוסיפו פעולות מניעה להמשך
5. תבניות תקשורת
הודעת פתיחה ללקוחות
אנחנו מודעים לבעיה שמשפיעה על[scope]ופועלים לטיפול. נעדכן שוב בתוך[timeframe].
הודעת התאוששות
התקלה נפתרה והשירות חזר לפעילות תקינה. אם אתם עדיין נתקלים בבעיה, פנו אל support@agentixx.io.
הודעת סיכום
מקור התקלה:[brief explanation]
פעולות מניעה:[preventive actions]
6. Checklist לאחר האירוע
- כל השירותים חזרו ל-green
- נשלחה הודעת סיום ללקוחות אם היה צורך
- הוכן post-mortem
- נוצרו follow-up items
- עודכנו runbooks או alert thresholds אם נדרש
7. מפת ניווט מהירה
| תרחיש | מדריך קשור |
|---|---|
| השבתה אחרי deploy | מדריך Deployment |
| שחזור נתונים | גיבוי ושחזור מסד נתונים |
| בעיית Redis או queues | Redis Persistence |
| תקלות מייל | הגדרת Email Deliverability |
| בעיית ניטור | הגדרת Uptime Monitoring |