Первоначально все операции производились вручную через графический интерфейс, но это было неудобно и плохо масштабировалось. В какой-то момент мы приняли решение изменить подход к управлению триггерами и нотификациями на использование декларативных описаний (.yaml).
Приходите на доклад, и вы узнаете:
- как мы управляем алертингом для более чем 3000 сервисов;
- как мы управляем алертингом для всей инфраструктуры;
- как организован процесс мониторинга 24×7;
- продемонстрирую работу нашего тестового стенда в режиме реального времени;
- расскажу, как этот тестовый стенд вы можете запустить у себя буквально за две минуты.
Все продемонстрированные решения находятся в open source.
Тезисы и презентация.