В своём докладе я расскажу о том, как мы развивали нашу систему управления триггерами и нотификациями.
Первоначально все операции производились вручную через графический интерфейс, но это было неудобно и плохо масштабировалось. В какой-то момент мы приняли решение изменить подход к управлению триггерами и нотификациями на использование декларативных описаний (.yaml).
Приходите на доклад, и вы узнаете:
как мы управляем алертингом для более чем 3000 сервисов;
как мы управляем алертингом для всей инфраструктуры;
как организован процесс мониторинга 24×7;
продемонстрирую работу нашего тестового стенда в режиме реального времени;
расскажу, как этот тестовый стенд вы можете запустить у себя буквально за две минуты.
Все продемонстрированные решения находятся в open source.