Observability
AIOps-мониторинг для финтех-проекта
Клиент: Платёжный сервис (50k+ транзакций/день)
🔴 Проблема
Простои выявлялись по жалобам клиентов; RCA занимало часы из-за разрозненных логов; SLA нарушался регулярно.
🔧 Решение
Централизовали логи (ELK), метрики (Zabbix + Grafana), настроили правила корреляции и алерты на аномалии (latency/error rate), интегрировали инциденты с PagerDuty и Telegram.
✅ Результат
MTTR сократился с ~4 часов до ~12 минут; 95% проблем стали обнаруживаться проактивно до влияния на пользователей; SLA стабилизировался на 99.8%.
Технологии:
Что было сделано
- Согласовали ключевые метрики (latency, error rate, throughput) и пороги.
- Нормализовали форматы логов и добавили контекст (trace-id/correlation-id).
- Настроили уведомления с приоритезацией и маршрутизацией дежурным.
Дополнительно
Дальше обычно добавляют tracing (OpenTelemetry), SLO-ошибочный бюджет и postmortem-шаблоны.