Все

Как устроено поисковое ранжирование в Авито

Видео data science
На Авито ежедневно заходят 27 млн пользователей. Диапазон их поиска — от автомобилей и квартир до услуг сантехника и детской одежды.
Поиск в Авито единый на все категории и держит нагрузку около 100 Krpm нагрузки. Как и в традиционных маркетплейсах, в поиске мы учитываем интересы не только покупателя, но и продавца.

Для этого мы написали свой жадный алгоритм поверх моделей ранжирования. В отличие от маркетплейсов, мы не всегда знаем о состоявшейся сделке. Это делает выбор ML-таргета отдельной задачей. Мы создаем много продуктовых улучшений без ML и написали свой фреймворк для офлайн-приемки поиска как продукта.

На примере Авито расскажу, какие проблемы вас ждут на пути обучения и внедрения моделей поискового ранжирования в highload-систему. В докладе обсудим как технические, так и продуктовые, около-ML-ные стороны поиска.
Я расскажу, как устроена работа над ранжированием сейчас, про наши последние проекты-достижения, неудачи и планы.
Доклад ориентирован на ML-инженеров, которые знают базовую ML-теорию и что-то слышали про ранжирование или рекомендации.
Илья в Авито занимается рекомендациями и поиском. Для рекомендаций обучал векторные представления объявлений по контенту. В поиске внедрял первые ML-модели в ранжирование, заводил поиск по векторам.
Сейчас с командой повышает полноту поиска, занимается персонализацией, аукционами, строит свою платформу для обучения ML-моделей и доставки их в прод.
До Авито успел позаниматься моделями для CRM-рассылок в Tele2, графиками работ в салонах МТС, банковским скорингом на данных соцсетей в DoubleData.