תוכנית תגובה לתקלות
סקירה כללית
1. רמות חומרה
2. זיהוי תקלה
3. הסלמה
4. תהליך תגובה
שלב 1: Acknowledge
שלב 2: Assess
שלב 3: Contain
שלב 4: Communicate
שלב 5: Resolve
שלב 6: Recover
שלב 7: Learn
5. תבניות תקשורת
הודעת פתיחה ללקוחות
הודעת התאוששות
הודעת סיכום
6. Checklist לאחר האירוע
7. מפת ניווט מהירה

תוכנית תגובה לתקלות

סקירה כללית

המדריך הזה מגדיר כיצד מטפלים בתקלות ב-Agentix: סיווג חומרה, זיהוי, הסלמה, מענה, תקשורת ושיפור לאחר האירוע. מדריכים קשורים:

כתובת תמיכה: support@agentixx.io

1. רמות חומרה

Level	שם	קריטריון	זמן תגובה
P1	קריטי	השבתה מלאה או אובדן נתונים לכל הלקוחות	15 דקות
P2	חמור	פגיעה משמעותית במספר לקוחות או ביכולת ליבה	שעה
P3	בינוני	פגיעה מוגבלת עם workaround	4 שעות
P4	נמוך	תקלה קוסמטית או שיפור	יום עסקים הבא

כאשר יש ספק, מסווגים כלפי מעלה ואז מורידים אם צריך.

2. זיהוי תקלה

מקורות זיהוי:

BetterStack health checks
Sentry error alerts
Railway deployment alerts
דיווחי משתמשים
זיהוי ידני על ידי הצוות

Checklist ראשוני:

3. הסלמה

חומרה	מגיב ראשון	הסלמה אל
P1	on-call engineer	CTO / founder
P2	on-call engineer	team lead
P3	assigned engineer	on-call engineer אם אין התקדמות
P4	assigned engineer	ללא הסלמה

לצוות קטן, ברירת המחדל היא שהאחראי הוא מי שביצע את ה-deploy האחרון ל-main.

4. תהליך תגובה

שלב 1: Acknowledge

שלב 2: Assess

הגדירו היקף פגיעה
בדקו deploys מהשעתיים האחרונות
נתחו שגיאות ב-Sentry ובלוגים
זהו את הרכיב הפגוע: API, Web, DB, Redis, workers או שירות חיצוני

שלב 3: Contain

תקלת deploy: rollback לגרסה יציבה
תקלת DB: עצרו פעולות מסוכנות ואל תבצעו כתיבה ידנית בלי גיבוי
תקלת ספק חיצוני: בדקו status page והתאימו fallback

שלב 4: Communicate

ב-P1/P2 שלחו עדכון ראשוני ללקוחות בתוך 30 דקות
עדכנו thread פנימי כל 30-60 דקות

שלב 5: Resolve

יישמו את התיקון
ודאו שהבעיה באמת נפתרה ולא רק הוסתרה
בצעו אימות ב-production

שלב 6: Recover

ודאו שכל השירותים חזרו לפעילות
בדקו תורים, health checks ופעולות לקוח מרכזיות

שלב 7: Learn

כתבו post-mortem
תעדו root cause
הוסיפו פעולות מניעה להמשך

5. תבניות תקשורת

הודעת פתיחה ללקוחות

אנחנו מודעים לבעיה שמשפיעה על [scope] ופועלים לטיפול. נעדכן שוב בתוך [timeframe].

הודעת התאוששות

התקלה נפתרה והשירות חזר לפעילות תקינה. אם אתם עדיין נתקלים בבעיה, פנו אל support@agentixx.io.

הודעת סיכום

מקור התקלה: [brief explanation]
פעולות מניעה: [preventive actions]

6. Checklist לאחר האירוע

כל השירותים חזרו ל-green
נשלחה הודעת סיום ללקוחות אם היה צורך
הוכן post-mortem
נוצרו follow-up items
עודכנו runbooks או alert thresholds אם נדרש

7. מפת ניווט מהירה

תרחיש	מדריך קשור
השבתה אחרי deploy	מדריך Deployment
שחזור נתונים	גיבוי ושחזור מסד נתונים
בעיית Redis או queues	Redis Persistence
תקלות מייל	הגדרת Email Deliverability
בעיית ניטור	הגדרת Uptime Monitoring

מדריך Deployment

גיבוי ושחזור מסד נתונים

⌘I

התחלה מהירה

מדריכי תפעול

תוכנית תגובה לתקלות

תוכנית תגובה לתקלות

סקירה כללית

1. רמות חומרה

2. זיהוי תקלה

3. הסלמה

4. תהליך תגובה

שלב 1: Acknowledge

שלב 2: Assess

שלב 3: Contain

שלב 4: Communicate

שלב 5: Resolve

שלב 6: Recover

שלב 7: Learn

5. תבניות תקשורת

הודעת פתיחה ללקוחות

הודעת התאוששות

הודעת סיכום

6. Checklist לאחר האירוע

7. מפת ניווט מהירה

התחלה מהירה

מדריכי תפעול

​תוכנית תגובה לתקלות

​סקירה כללית

​1. רמות חומרה

​2. זיהוי תקלה

​3. הסלמה

​4. תהליך תגובה

​שלב 1: Acknowledge

​שלב 2: Assess

​שלב 3: Contain

​שלב 4: Communicate

​שלב 5: Resolve

​שלב 6: Recover

​שלב 7: Learn

​5. תבניות תקשורת

​הודעת פתיחה ללקוחות

​הודעת התאוששות

​הודעת סיכום

​6. Checklist לאחר האירוע

​7. מפת ניווט מהירה

תוכנית תגובה לתקלות

סקירה כללית

1. רמות חומרה

2. זיהוי תקלה

3. הסלמה

4. תהליך תגובה

שלב 1: Acknowledge

שלב 2: Assess

שלב 3: Contain

שלב 4: Communicate

שלב 5: Resolve

שלב 6: Recover

שלב 7: Learn

5. תבניות תקשורת

הודעת פתיחה ללקוחות

הודעת התאוששות

הודעת סיכום

6. Checklist לאחר האירוע

7. מפת ניווט מהירה