AIOps-мониторинг для финтех-проекта | AEdynasty
AEdynasty AEDynasty
📊 Observability

AIOps-мониторинг для финтех-проекта

Клиент: Платёжный сервис (50k+ транзакций/день)

🔴 Проблема

Простои выявлялись по жалобам клиентов; RCA занимало часы из-за разрозненных логов; SLA нарушался регулярно.

🔧 Решение

Централизовали логи (ELK), метрики (Zabbix + Grafana), настроили правила корреляции и алерты на аномалии (latency/error rate), интегрировали инциденты с PagerDuty и Telegram.

✅ Результат

MTTR сократился с ~4 часов до ~12 минут; 95% проблем стали обнаруживаться проактивно до влияния на пользователей; SLA стабилизировался на 99.8%.

Технологии:
ELK Stack Zabbix Grafana PagerDuty Python ML scripts

Что было сделано

  • Согласовали ключевые метрики (latency, error rate, throughput) и пороги.
  • Нормализовали форматы логов и добавили контекст (trace-id/correlation-id).
  • Настроили уведомления с приоритезацией и маршрутизацией дежурным.

Дополнительно

Дальше обычно добавляют tracing (OpenTelemetry), SLO-ошибочный бюджет и postmortem-шаблоны.

Есть похожая задача?

Расскажите о вашем проекте, и мы предложим решение

Обсудить проект