דלג לתוכן הראשי

תוכנית תגובה לתקלות

סקירה כללית

המדריך הזה מגדיר כיצד מטפלים בתקלות ב-Agentix: סיווג חומרה, זיהוי, הסלמה, מענה, תקשורת ושיפור לאחר האירוע. מדריכים קשורים: כתובת תמיכה: support@agentixx.io

1. רמות חומרה

Levelשםקריטריוןזמן תגובה
P1קריטיהשבתה מלאה או אובדן נתונים לכל הלקוחות15 דקות
P2חמורפגיעה משמעותית במספר לקוחות או ביכולת ליבהשעה
P3בינוניפגיעה מוגבלת עם workaround4 שעות
P4נמוךתקלה קוסמטית או שיפוריום עסקים הבא
כאשר יש ספק, מסווגים כלפי מעלה ואז מורידים אם צריך.

2. זיהוי תקלה

מקורות זיהוי:
  1. BetterStack health checks
  2. Sentry error alerts
  3. Railway deployment alerts
  4. דיווחי משתמשים
  5. זיהוי ידני על ידי הצוות
Checklist ראשוני:
  • בדיקת BetterStack
  • בדיקת Sentry
  • בדיקת לוגים ב-Railway
  • בדיקת Vercel deployments
  • בדיקת deploys אחרונים
  • בדיקת Redis queues
  • בדיקת PostgreSQL connectivity

3. הסלמה

חומרהמגיב ראשוןהסלמה אל
P1on-call engineerCTO / founder
P2on-call engineerteam lead
P3assigned engineeron-call engineer אם אין התקדמות
P4assigned engineerללא הסלמה
לצוות קטן, ברירת המחדל היא שהאחראי הוא מי שביצע את ה-deploy האחרון ל-main.

4. תהליך תגובה

שלב 1: Acknowledge

  • ודאו שהאירוע אמיתי
  • קבעו חומרה
  • פתחו thread או issue למעקב
  • הגדירו owner
  • תעדו זמן התחלה

שלב 2: Assess

  • הגדירו היקף פגיעה
  • בדקו deploys מהשעתיים האחרונות
  • נתחו שגיאות ב-Sentry ובלוגים
  • זהו את הרכיב הפגוע: API, Web, DB, Redis, workers או שירות חיצוני

שלב 3: Contain

  • תקלת deploy: rollback לגרסה יציבה
  • תקלת DB: עצרו פעולות מסוכנות ואל תבצעו כתיבה ידנית בלי גיבוי
  • תקלת ספק חיצוני: בדקו status page והתאימו fallback

שלב 4: Communicate

  • ב-P1/P2 שלחו עדכון ראשוני ללקוחות בתוך 30 דקות
  • עדכנו thread פנימי כל 30-60 דקות

שלב 5: Resolve

  • יישמו את התיקון
  • ודאו שהבעיה באמת נפתרה ולא רק הוסתרה
  • בצעו אימות ב-production

שלב 6: Recover

  • ודאו שכל השירותים חזרו לפעילות
  • בדקו תורים, health checks ופעולות לקוח מרכזיות

שלב 7: Learn

  • כתבו post-mortem
  • תעדו root cause
  • הוסיפו פעולות מניעה להמשך

5. תבניות תקשורת

הודעת פתיחה ללקוחות

אנחנו מודעים לבעיה שמשפיעה על [scope] ופועלים לטיפול. נעדכן שוב בתוך [timeframe].

הודעת התאוששות

התקלה נפתרה והשירות חזר לפעילות תקינה. אם אתם עדיין נתקלים בבעיה, פנו אל support@agentixx.io.

הודעת סיכום

מקור התקלה: [brief explanation]
פעולות מניעה: [preventive actions]

6. Checklist לאחר האירוע

  • כל השירותים חזרו ל-green
  • נשלחה הודעת סיום ללקוחות אם היה צורך
  • הוכן post-mortem
  • נוצרו follow-up items
  • עודכנו runbooks או alert thresholds אם נדרש

7. מפת ניווט מהירה

תרחישמדריך קשור
השבתה אחרי deployמדריך Deployment
שחזור נתוניםגיבוי ושחזור מסד נתונים
בעיית Redis או queuesRedis Persistence
תקלות מיילהגדרת Email Deliverability
בעיית ניטורהגדרת Uptime Monitoring