В докладе Виктор Ерёмченко делится опытом подхода к мониторингу нашей Аналитической платформы. Почему большое количество метрик, таких как saturation, доступность и т.д., не отражают текущую ситуацию на 100% и как легко пропустить проблемы. Рассказываем о том, какие бизнес-метрики мы определили для себя и как на основе этих метрик оцениваем нашу стабильность и про наши инструменты сбора метрик и логов, как мы используем Vector, Kafka, Clickhouse и Graphite. Показываем как мы пришли к автоматическому решению проблем и что из этого получилось. Доклад будет полезен тем, кто планирует внедрять мониторинг платформу, а также тем, кто хочет попробовать взглянуть на мониторинг с другой стороны.