Привет! Меня зовут Дмитрий Кротов, я старший аналитик в команде Авито Авто, занимаюсь развитием стрима маркетинга, в том числе CRM-коммуникаций. Ключевая задача этого стрима — делать рассылки более ценными для пользователей и повышать их эффективность для бизнеса. В статье рассказываю, как мы создали сегментацию покупателей автомобилей с пробегом с помощью микса методологий, оценили её эффективность и применили на практике.
Зачем мы решили создать новую модель для сегментации
На старте у нас был ряд важных вводных:
Рост аудитории и продукта. Авито Авто — это крупная площадка с миллионами ежедневных посетителей, имеющих абсолютно разные потребности: одни активно выбирают среди предложений и готовы купить авто уже сейчас, другие просто анализируют уровень цен, а кто-то заходит по ссылке друга посмотреть конкретное объявление. Этот подводит нас к необходимости сегментации.
Персонализация CRM-коммуникаций. Разные мотивы поведения требуют разных по содержанию коммуникаций. Сегментация может помочь точнее настраивать кампании под потребности пользователей и, как следствие, снижать количество отписок от рассылок.
Адаптивность методологии. Авито стремительно развивается и регулярно выходит в новые категории и сегменты бизнеса. В связи с этим мы хотим заложить возможность эффективной адаптации методологии под другие категории объявлений.
RFM и обзор других методологий
Прежде чем погрузиться в разработку своей методологии, мы изучили практики, которые используют в Авито и на рынке в целом.
Самым подходящим решением, которое было бы оптимальным по затрачиваемому ресурсу и приносимой ценности, была RFM-методология.
Классическая RFM-модель:
RFM включает в себя три параметра:
- Recency (давность): когда пользователь в последний раз совершал целевое действие;
- Frequency (частота): количество целевых действий, совершённых за определённый период;
- Monetary (деньги): средства, потраченные пользователем в продукте за период.
Интеграция этой модели без изменений для наших целей была нерелевантна, так как денежный показатель нам не подходит. Наша бизнес-модель — классифайд, источник выручки здесь не покупатели авто, а продавцы, которые оплачивают размещение объявлений. Поэтому мы стали изучать другие методологии.
CLV-анализ и скоринговая модель. Эти методологии могут помочь оценить ценность и активность пользователя для нас, но они не отвечают на вопрос «горячести» пользователя именно сейчас.
Неклассические RFM-модели:
Recency-Frequency-Intensity (RFI). В этой методике к RFM добавляется показатель интенсивности (Intensity). Этот показатель отражает уровень вовлечённости клиента в продукт или услугу. С помощью вовлеченности можно оценить, как часто клиент использует продукт или услугу и насколько активен при этом.
Recency-Engagement-Value (REV). Здесь дополнительно к RFM учитывается уровень вовлечённости (engagement). Этот параметр анализирует вовлечённость клиента с помощью метрик: время пребывания на сайте, частота взаимодействия с контентом, участие в программе лояльности и других.
Recency-Frequency-Monetary-Channel (RFMC). Тут помимо RFM учитываются данные о каналах, через которые происходят взаимодействия с клиентом. Это позволяет более точно анализировать привлекательность каналов и ресурсов.
RFM без оценки монетаризации. В этой методике анализируются только recency и frequency.
Recency-Activity-Quantity (RAQ). Здесь оценивается не только частота покупок, но и количество единиц продукции или общий объём услуг, потреблённых клиентом за определённый период.
По итогам исследования мы решили, что ограничивать себя имеющимися методологиями — не самый эффективный путь. И стали создавать свою сегментацию с учётом особенностей продукта.
RFFLP или микс методологий
Слева — классическая RFM-модель, справа — наша адаптация:
В нашем подходе соединили всё, что подходило нам из нескольких методик. Расскажу об этом подробнее.
Параметр recency мы оставили без изменений — с помощью него определяем давность посещения категории с подержанными автомобилями.
На основе расчётов давности пользовательской активности (количество дней с последней активности в категории по параметру recency) и продуктового подхода к выделению оттока, мы определили четыре сегмента:
- текущие юзеры;
- потенциальный отток;
- уходящие в отток;
- потерянные.
Пример гистограммы распределения пользователей по параметру recency:
Параметр frequency. Вместо классического расчёта частотности одного действия, например, совершения сделки, мы стали рассчитывать score пользовательской активности — взвешенную активность.
Решили перейти к формату score, потому что не можем адекватно оценить активность человека только по одному типу пользовательского события. В связи с этим выбрали ряд событий, которые отражают активность пользователя как в начале воронки, так и в конце. В итоге получили следующую формулу:
Формула для оценки активности пользователей:
Учитывать каждое событие можно с экспертными или расчётными весами. Мы пошли вторым путём. Вес каждого типа активности пользователя оценивали через его долю в общей величине событий:
Формула расчёта весов score:
Рассмотрим методологию на конкретном примере:
При расчёте весов важно также обратить внимание на следующие аспекты:
- Рассматривайте как базовые события в воронке, так и максимально близкие к целевому.
- Подбирайте метрики, которые будут лучше всего отражать специфику продукта.
- Веса событий должны быть не фиксированными, их стоит автоматически пересчитывать. Это особенно важно, если продукт находится в самом начале пути и претерпевает множество изменений.
- Для оценки активности и «горячести» пользователей нам уже достаточно информации после расчёта параметров recency и frequency.
Но сам по себе параметр recency не даёт ответ на вопрос о степени активности пользователя в последнее время. Поэтому вы можете столкнуться со следующими кейсами:
Сравнение активности двух разных пользователей на Авито без учёта параметра frequency last period:
Frequency считается на большом окне и даёт возможность оценить длительную историю активности пользователя. Frequency last period учитывает активность на маленьком окне и позволяет понять, насколько пользователь активен прямо сейчас.
Например, у user 1 и user 2 одинаковые показатели frequency и recency, но при этом user 1 находится в активной фазе пользования продуктом, и за последние три дня он накопил треть своего frequency. А user 2 — пример вернувшегося пользователя, который много взаимодействовал с продуктом раньше, но за последние три дня сделал лишь два просмотра и, следовательно, не находится в активной фазе поиска авто.
Без расчёта frequency last period оба этих пользователя были бы классифицированы одинаково.
Параметр frequency last period считается по формуле:
Понимание параметра last period зависит от подхода к оценке «свежести» активности и типа продукта. Например, оно будет сильно отличаться от продуктового ретейла, где пользователи возвращаются еженедельно, и сервиса бронирования отелей, куда юзеры обычно приходят 1–2 раза в год.
С помощью расчёта доли активности за крайний период мы можем выделить ещё четыре когорты пользователей:
Новички: 100% активности накоплено в этот период.
Старички: 0% активности накоплено в этот период.
Скорее новички: >50% активности накоплено в этот период, но не равно 100%.
Скорее старички: <50% активности накоплено в этот период, но не равно 0%.
Пример гистограммы распределения пользователей по параметру frequency last period:
Использование frequency last period даёт возможность точнее определять, когда пользователи накопили активность по давности посещения — recency и степени активности — frequency:
Сверху — таблица с пользователями, которых мы сегментировали без уточнения параметра frequency last period, снизу — добавили этот параметр.
При разработке сегментации учитывайте также частоту обновления и период расчёта. Они зависят от скорости и частоты взаимодействия с пользователем.
Оценка качества модели
Прежде чем тестировать модель на боевых задачах, мы сравнили три методологии:
- нашу RFFLP-сегментацию;
- ML-модель из категории подержанных авто, которая может детектировать только «горячих» покупателей и с не удовлетворяющим нас уровнем точности;
- проверенную ML-модель, которую мы активно используем в другой категории Авито.
Хотели оценить, насколько точно наша модель определяет состояния пользователей, и сравнить эту оценку с реальной картиной.
Методология оценки точности сегментации:
Оценку провели двумя подходами:
Собрали метрики в день скоринга — краткосрочное определение «горячих» пользователей. Покрытие целевой когорты юзеров RF-моделью на 9 п.п. выше проб с ML-моделью в Авто и почти совпадает с точностью ML-моделей в других категориях.
Собирали метрики в течение 30 дней после скоринга — долгосрочное определение «холодных» юзеров. Покрытие целевой когорты юзеров RFFLP-моделью на 11 п.п. выше проб с ML в Авто и совпадает с точностью ML-моделей в других категориях.
Эффективность модели в CRM-коммуникациях
Сегментация используется для корректировки коммуникаций по параметрам:
- степень активности;
- степень новизны активности;
- степень оттока пользователя.
Оценка эффективности сегментации в коммуникациях проводилась с помощью A/B-тестирования и глобального контроля.
Подход к A/B-тестированию был следующим: отправляли два разных типа коммуникаций — персонализированную коммуникацию под сегмент и стандартную коммуникацию на безликую аудиторию.
На глобальном контроле мы отслеживали изменения аплифта метрик у тех, кто получает коммуникации против тех, кто не получает.
Результаты, которые мы получили после оценки
Персонализированные коммуникации, основанные на сегментации:
- показывают более высокий open rate — в среднем на 25%;
- приводят в 1,5 раза больше целевых покупателей;
- показывают аплифт в просмотрах в среднем на 27% выше;
- имеют аплифт в целевых кликах в среднем на 24% выше;
- реже триггерят пользователей к отпискам от пуш-уведомлений.
Сегментация позволила детектировать переход пользователей в другие категории. Это открыло возможность для создания кросс-рассылок.
Итог: как мы разработали новую модель сегментации для покупателей в категории автомобилей с пробегом
- изучили практики и методологии сегментации внутри компании и вне;
- адаптировали RFM-методологию — взяли recency, переработали frequency и отказались от monetary;
- разработали новый параметр frequency last period — долю частоты, накопленную за крайний период. Теперь можем точнее понимать, насколько «свежая» активность у пользователя;
- сравнили результаты с нашими действующими ML-моделями. Новый метод показал высокий уровень точности;
- внедрили методологию в CRM-коммуникации, что позволило сделать рассылки более персонализированными и полезными.
Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.