Платформа А/В-тестирования нужна для того, чтобы валидировать продуктовые изменения.
Главная трудность состоит в том, что невозможно быстро запускать A/B-тесты, потому что всё делается «руками». Перед аналитиками стоит задача ускорить и автоматизировать этот процесс.
Когда A/B-тестов становится много, они начинают накладываться друг на друга, пересекаться, ломать интерфейс, приводя к некорректным результатам. Статистика Avito: 50 экспериментов одновременно, в каждом эксперименте трекается примерно 300 метрик, а если учитывать срезы, то число метрик достигает 8000. Каждый день проводится примерно 14 млн. измерений. Такие числа в принципе невозможно отсмотреть. Поэтому, чтобы отсматривать такое количество результатов нужно иметь грамотную визуализацию.
Короткие выводы:
- Текстовые конфиги лучше, чем GUI
- Использование слоёв и тройного посола для распределение трафика
- Универсальная формула метрик – observations/ groupby/ threshold
- Внедрение «бакетов»
- Линеаризация Ratio вместо Bootstrap
- Табло для визуализации результатов
- Minimum Detedtable Effect – важнейший показатель
- Lift, P-value в динамике, гистограмы