Инфраструктура A/B-тестирования для централизации обработки результатов

Доклад рассказывает об общем устройстве инфраструктуры с погружением в детали: безопасный сплит трафика в тесте, типы метрик, производительность при масштабировании, оптимизация, визуализация. Слушатели смогут перенять опыт в построении эффективной инфраструктуры.

Платформа А/В-тестирования нужна для того, чтобы валидировать продуктовые изменения.
Главная трудность состоит в том, что невозможно быстро запускать A/B-тесты, потому что всё делается «руками». Перед аналитиками стоит задача ускорить и автоматизировать этот процесс.

Когда A/B-тестов становится много, они начинают накладываться друг на друга, пересекаться, ломать интерфейс, приводя к некорректным результатам. Статистика Avito: 50 экспериментов одновременно, в каждом эксперименте трекается примерно 300 метрик, а если учитывать срезы, то число метрик достигает 8000. Каждый день проводится примерно 14 млн. измерений. Такие числа в принципе невозможно отсмотреть. Поэтому, чтобы отсматривать такое количество результатов нужно иметь грамотную визуализацию.

Короткие выводы:

Текстовые конфиги лучше, чем GUI
Использование слоёв и тройного посола для распределение трафика
Универсальная формула метрик – observations/ groupby/ threshold
Внедрение «бакетов»
Линеаризация Ratio вместо Bootstrap
Табло для визуализации результатов
Minimum Detedtable Effect – важнейший показатель
Lift, P-value в динамике, гистограмы