Год почти закончился, а мы решили посмотреть, о чём успели написать в 2025 году, и собрали дайджест из статей от DS-специалистов. Если любопытно, о чём писали ребята из других направлений — посмотрите на дайджесты аналитиков, продактов и дизайнеров.
Руслан Гилязев рассказал, как разрабатывали и внедряли систему, которая предсказывает категорию объявления по описанию товара
Людям свойственно ошибаться, и мы считаем, что не стоит их за это ругать. Лучше изменить интерфейс, чтобы ошибиться было сложнее. Например, раньше пользователи иногда размещали объявления в неправильных категориях, поэтому такие товары было сложнее найти. Мы придумали, как это исправить.
Руслан Гилязев рассказал, как построили ML-систему, которая автоматически предлагает пользователям подходящие категории для объявлений. Система использует иерархию из отдельных моделей и может адаптироваться к любым изменениям в каталоге. Прочитайте статью, чтобы узнать, как работает пошаговая классификация, зачем нужен «негативный класс» и как модель учитывает новые категории.
Наталья Вареник показала рабочий пайплайн, чтобы точно читать текст на фото с помощью ИИ
Представьте, что вам дали задачу — научить модель распознавать текст на фотографии документа. Вы бы взяли готовое опенсорс-решение или собрали своё? Важно рассмотреть каждый символ и не ошибиться ни разу. Мы попробовали оба варианта и поняли, что опенсорс не подходит.
Наталия Вареник объяснила на цифрах, почему это так. А ещё описала, как строили пайплайн, который разбивает сложную задачу на три этапа: проверка качества фото, детекция области с текстом и финальное распознавание. Такой подход выдал точность в 98,5%. Прочитайте статью, чтобы узнать, как создавали инструмент, который может корректно распознать текст на фото.
Андрей Усенок поделился, как удалось автоматизировать ревизию прав доступа к админке Авито
В любой большой компании админки со временем обрастают сотнями прав доступа, про которые могут иногда забывать: например, сотрудник уволился, а права остались. Такие ничейные аккаунты надо обязательно убирать, но разбирать их вручную очень долго, поэтому мы подошли к проблеме с инструментом на базе ИИ.
Андрей Усенок рассказал, как он автоматизировал решение задачи с помощью мультиагентной LLM-системы. Вместо одной модели он создал четырёх специализированных агентов, которые анализируют код, документацию и оргструктуру, а ещё добавил супервизора для координации их работы. Прочитайте статью, чтобы узнать, как получилось найти все «безхозные» учётки.
Сергей Кляхандлер рассказал, что изменилось в системе автогенерации описаний за год
На Авито ежедневно публикуют сотни объявлений. Одни пользователи подходят к задаче обстоятельно: тщательно заполняют все поля и аккуратно описывают свой товар. Другие не могут потратить много времени, поэтому пишут только обязательную информацию, а описание оставляют пустым. Такие объявления найти гораздо сложнее. Но каждому продавцу нужно реализовать товар, и мы решили им помочь.
Сергей Кляхандлер рассказал, какие изменения произошли в системе автогенерации описаний. Это сервис, который оценивает фото и предлагает шаблон описания, куда остаётся вписать параметры товара. Ещё Сергей поделился новой фичей — генерацией дополнительных слов для поиска. Модель рассматривает фотографии, которые пользователи добавляют к объявлениям, и на их основе создаёт дополнительные слова для поисковика Авито. Прочитайте статью, чтобы понять, как всё работает и какие приносит результаты.
Андрей Старостин описал принципы работы ИИ-ассистента, который помогает аналитикам искать нужные метрики
В Авито есть BI-система для продуктовой и бизнес-аналитики — М42, в которой находятся больше 16 000 метрик. Их так много, что иногда даже опытным аналитикам бывает сложно найти нужную. Мы решили им помочь и собрали ИИ-ассистента, который понимает запросы на естественном языке. Например, примет такой: «покажи просмотры в Электронике за прошлый квартал в процентах».
Андрей Старостин раскрывает архитектуру ассистента. В основе работы — связка LLM, Retrieval-Augmented Generation и строгий JSON-формат вывода, что минимизирует ошибки и галлюцинации. Ассистент находит метрики с помощью семантического и лексического поиска, Faiss-индексации эмбеддингов и отбора кандидатов для LLM. Для сложных запросов подбираются релевантные few-shot примеры. Прочитайте статью, чтобы узнать детали и как внедрение ассистента ускорило построение графиков на 50% и привлекло новых пользователей.
Айрат Рахматуллин рассказал, как ML-модель помогает исполнителям получать больше заказов на Авито
В Авито есть не только товары, но и услуги. Это могут быть и мастерицы маникюра, и строители, и другие специалисты. Когда мастер публикует своё объявление, ожидает получать отклики и заказы. Но если их нет, то и специалист начинает сомневаться, а подходит ли ему платформа. Всё это может приводить к оттоку пользователей.
Айрат Рахматуллин рассказал, как ML-модели помогает пользователям получать больше заказов. Эффективность новой фичи подтвердили A/B-тесты. Новая модель генерирует скор-карту инструментов по степени влияния на таргет. Глядя на карту, мы можем оценить влияние инструментов на ликвидность объявления и дать специалисту персональные рекомендации. Например, можем посоветовать отвечать на сообщения в течение получаса. Прочитайте статью, чтобы узнать детали.
Анастасия Рысьмятова описала, как в Авито делали свою LLM — A-vibe
Когда для бизнес-задач нужна своя большая языковая модель, выбор часто стоит между медленной и дорогой API-моделью и опенсорсной, которая может плохо работать с русским языком. Команда LLM Авито выбрала третий путь: взяла лучшую опенсорсную модель и пересобрала её. В итоге создали гибридный токенизатор, который эффективнее кодирует русский текст и ускоряет генерацию.
Анастасия Рысьмятова рассказала о том, как собирали модель A-Vibe. О том, как создавали свой токенизатор для английского и русского языков и подменили им оригинальную версию, а затем обучили модель на корпусе данных. И это не всё, больше информации вы найдёте в статье.
Если хотите знать больше, как работают DS-инженеры в Авито, подписывайтесь на наш телеграм-канал «Доска AI-объявлений». Публикуем туда полезные материалы, кейсы, новости и иногда вакансии.