Совсем не дают спокойствия в отпуске
01.08.23 (GMT+3)
- 10:00 - Один из пользователей отправляет голосовое сообщение содержащее сломанную аудио дорожку, ffmpeg не справляется с обработкой файла и выдаёт ошибку. После сбоя ffmpeg ввиду отсутствия обработки ошибок падает процесс воркера распознавания, который вместе с собой убивает основной процесс бота.
- 10:15 - После нескольких автоматических попыток перезапустить процесс, оркестратор сдаётся и помечает сервис как упавший.
- 16:24 - Я узнал о сбое, но в связи с отъездом в соседний город, не могу произвести анализ.
- 17:50 - Я приступил к поиску анализу ситуации
- 18:00 - Сбой работы WiFi в отеле
- 18:34 - Поднял костыльную WiFi сеть
- 18:50 - Весь WiFi перестал работать
02.08.23 (GMT+3)
- 8:12 - Начинает работать одна из сетей WiFi, приступаю к восстановлению работы
- 9:00 - Отключение электроснабжения в Отеле
- 9:15 - Электроснабжение восстановлено
- 9:35 - Выпущен фикс, подпольный начинает разбирать очередь сообщений
Очередь: 512 голосовых Примерное время ожидания: 47 минут
- 10:51 - Очередь полностью разобрана, инцидент исчерпан.
Последствия
Даунтайм бота составил сутки, в ближайшее время выпущены и планируются к выпуску несколько важных обновлений.
- Пропуск бракованных аудио сообщений — Готово
- Подключение бота к единому статус чекеру - Готово
- Автоматизированные отчёты об ошибках в системе облачного логгинга - Готово
- Разделение воркера и бота на 2 полностью раздельных процесса - Готово