Объясню на гипотетическом примере. Представьте, что вам поставили задачу: посчитать, сколько человек увидели рекламу вашей компании в интернете и кликнули по ней. Это все ваши вводные.
Вы не знаете:
- есть ли в компании хоть какие-то данные о рекламе;
- если есть — кто их собирает;
- где они хранятся: как называется нужная таблица / система / база;
- в каком виде они хранятся.
Задачу в любом случае нужно сделать, поэтому вы не сдаётесь и продолжаете искать нужную информации.
Вот, спустя пару дней, вы чудом находите какую-то таблицу с названием dma.ads_2025. При этом у неё нет описания, владельца, в ней куча столбцов с непонятными названиями, и вы не понимаете, что за информация в них хранится.
После множества попыток вы примерно разбираетесь в содержимом таблицы, делаете нужный расчёт и уносите его заказчику. И хотя дедлайн был ещё позавчера, вы не могли отдать расчёты в срок, потому что 2 дня ходили по чатам и пытались что-то найти.
При этом рекламный аналитик Вася на самом деле уже всё посчитал ещё до вас. А ещё его цифры были точнее, надёжнее и актуальнее. Но он назвал свою таблицу test1234, и никак не описал её, поэтому вы не смогли её найти. Как итог: вы сделали двойную работу, ещё и получили не очень хороший результат — ведь можно было просто взять таблицу Васи, в которой данные были точнее, и предоставить расчёты из неё.
И тут мы понимаем: без управления данными всё превращается в хаос, и ценность аналитики резко снижается.
Иерархия метрик HealthScore. Все метрики нормализованы в диапазоне от 0 до 100
Также мы используем метрику приоритизации витрин (Priority). Она рассчитывается по формуле:
В результате расчётов мы получили отсортированную таблицу приоритетных витрин, где сфокусировались на витринах с низким HS и высоким Importance.
Архитектура пайплайна сбора и расчёта HealthScore
Распределение HealthScore по зонам. Серым цветом показаны баллы здоровья данных
В итоге мы увидели ситуацию, в которой плодим чёрные ящики. Большинство объектов формально живые — регулярно обновляются, даже попадают в SLA и потребляют ресурсы. Но без описания полей и тестов мы не понимаем, что именно и почему считается внутри. Для аналитика или AI-агента использование такой витрины — это риск, а не помощь.
Мы осознали, что понимание данных и доверие к ним — наше узкое горлышко. Если хотим готовить DWH к эпохе AI и LLM-агентов, которые будут сами писать SQL, нам критически важно увеличить число тех самых 0.2% идеальных витрин до 20–30%.
И это важно не только для людей. AI-ассистенту мало уметь писать SQL — ему нужно понимать, каким данным можно доверять по умолчанию. Сертификация витрин как раз и превращает хаос из тысяч таблиц в машинно-читаемый сигнал доверия: что можно рекомендовать, на что ссылаться в ответах и что нести в прод.
По результатам субботника:
⭐ Проверили/улучшили 605 витрин
⭐ Средний показатель здоровья поднялся примерно на 7 п.п.
⭐ Отдельные владельцы подняли средний HealthScore своих объектов на 25+ п.п.
⭐ Получили такую разбивку по зонам: 20% (зелёная), 37% (жёлтая), 17% (красная)
Итоги и развитие экосистемы доверия. Этот проект подтвердил важную гипотезу: культуру работы с данными можно перевести на язык цифр. HealthScore помог нам выйти из области субъективных оценок в плоскость конкретных метрик.
⭐ Мы видим текущее состояние и проблемные зоны каждой из 6000+ витрин в реальном времени
⭐ Удаление сотен неиспользуемых объектов позволило разгрузить кластер и упростить навигацию для аналитиков
⭐ HealthScore — комплексная метрика, поэтому её значительный рост требует времени и системных усилий
⭐ Высокий уровень здоровья подтверждает надёжность процесса и соблюдение стандартов, но финальная валидация бизнес-логики всё ещё остаётся зоной ответственности экспертов
Но главный инсайт первой волны в том, что даже самый тщательный мониторинг — это лишь половина дела. Чтобы 6000+ витрин оставались здоровыми, поддержка качества должна стать естественной частью жизненного цикла данных на платформе.
Именно поэтому мы объединяем усилия: наши метрики здоровья витрин становятся фундаментом для сертификации отчётов. Об этом мой коллега Евгений Мичурин подробно рассказал в статье: «Как мы ввели автосертификацию дашбордов в Авито».
OpenAI прямо выделяет этот слой как отдельный уровень контекста для data-агента: Inside OpenAI’s in-house data agent.
Развитие жизненного цикла данных: как интегрировать метрики здоровья в инструменты платформы
В 2026 году наша общая цель — перенести большую часть запросов аналитиков, как репортинг витрин, так и адхоки, на сертифицированный Core-слой. Это не только снизит нагрузку на инфраструктуру, но и существенно сократит Time-to-market: когда данным можно доверять по умолчанию, аналитики тратят время на инсайты, а не на поиск данных, проверку расчётов и генерацию новых объектов-дубликатов.
Следите за обновлениями в наших новых статьях!
И подписывайтесь на коллективный телеграм-канал аналитиков Авито. Там ещё больше полезного о работе и не только: «Коммуналка аналитиков».