Redis Persistence ו-BullMQ Resilience

סקירה כללית

Agentix משתמשת ב-Redis עבור:

BullMQ queues
rate-limit counters
audit buffers
conversation locks

אובדן Redis עלול לגרום לאובדן jobs פעילים, לאיפוס rate limits ולהשתחררות locks, אבל BullMQ ומנגנוני retry אמורים לאפשר התאוששות סבירה. משתנה סביבה:

REDIS_URL

1. Persistence ב-Railway Redis

ב-Railway Redis משתמשים בדרך כלל ב-RDB snapshots:

snapshots תקופתיים
זמן התאוששות מהיר
חלון אובדן אפשרי של שניות עד דקות

אין גישה מלאה ל-redis.conf, ולכן לא ניתן להכריח AOF או לשנות save intervals ידנית.

2. אימות שה-persistence פעיל

redis-cli -u "$REDIS_URL" INFO persistence

בדקו במיוחד:

Field	Expected
`rdb_last_save_time`	timestamp עדכני
`rdb_changes_since_last_save`	מספר נמוך
`rdb_bgsave_in_progress`	`0` או `1`
`aof_enabled`	לרוב `0`
`loading`	`0`

אפשר גם לבדוק:

curl https://api.agentix.app/health

3. מה שורד restart

סוג נתון	שורד?
BullMQ waiting jobs	כן
delayed jobs	כן
active jobs בזמן crash	משוחזרים דרך stall detection
rate-limit counters	בדרך כלל כן
audit buffer	חלקית
locks	משתחררים

4. עמידות BullMQ

BullMQ מוגדר כך ש:

jobs קריטיים מקבלים מספר ניסיונות חוזרים
backoff אקספוננציאלי מטפל בשגיאות זמניות
stalled jobs מזוהים ומוחזרים לעיבוד

Redis client מוגדר עם:

maxRetriesPerRequest: null
retryStrategy
reconnectOnError
enableReadyCheck: true

5. טיפול בתקלה

כאשר יש תקלה ב-Redis:

בדקו חיבוריות
ודאו שהשירות רץ ב-Railway
בדקו queue backlogs
ודאו שה-workers מצליחים להתחבר מחדש
בדקו /health

אם יש כמות גדולה של stalled jobs:

נתחו worker logs
בדקו אם הייתה נפילת Redis
החליטו אם צריך pause זמני ל-queues

6. Checklist לאחר התאוששות

/health מחזיר redis: ok
queues ממשיכים להתקדם
אין reconnect loop בלתי נגמר
אין הצטברות חריגה של failed jobs
המערכת חזרה לעבד הודעות חדשות

7. מתי להסלים

הסלימו אם:

Redis לא חוזר תוך חלון זמן סביר
queues לא מתאוששים למרות חיבוריות תקינה
jobs קריטיים ממשיכים להיכשל
קיימת השפעה רחבה על לקוחות או על workflow execution

התחלה מהירה

מדריכי תפעול

Redis Persistence ו-BullMQ Resilience

Redis Persistence ו-BullMQ Resilience

סקירה כללית

1. Persistence ב-Railway Redis

2. אימות שה-persistence פעיל

3. מה שורד restart

4. עמידות BullMQ

5. טיפול בתקלה

6. Checklist לאחר התאוששות

7. מתי להסלים

התחלה מהירה

מדריכי תפעול

​Redis Persistence ו-BullMQ Resilience

​סקירה כללית

​1. Persistence ב-Railway Redis

​2. אימות שה-persistence פעיל

​3. מה שורד restart

​4. עמידות BullMQ

​5. טיפול בתקלה

​6. Checklist לאחר התאוששות

​7. מתי להסלים

Redis Persistence ו-BullMQ Resilience

סקירה כללית

1. Persistence ב-Railway Redis

2. אימות שה-persistence פעיל

3. מה שורד restart

4. עמידות BullMQ

5. טיפול בתקלה

6. Checklist לאחר התאוששות

7. מתי להסלים