Российские IT-компании стали все чаще делиться большими данными для улучшения отечественных решений. Недавно “Яндекс” выложил крупнейший датасет для развития онлайн-рекомендаций. По мнению экспертов, такая практика дает возможность молодым разработчикам быстрее обучать ИИ-модели и улучшать российские сервисы.
Сегодня качественные датасеты позволяют IT-специалистам обучать и тестировать модели в максимально приближенных к реальности условиям. Это ускоряет научные и прикладные исследования, снижает зависимость от зарубежных решений и напрямую влияет на темпы развития отечественных IT-продуктов.
“Надеюсь, что первыми, кто применит датасет от “Яндекса” для совершенствования своих рекомендательных алгоритмов, станут отечественные видеохостинги: запрос их пользователей на качественные рекомендации по-прежнему очень высокий. Но и другим российским цифровым платформам нужно в обязательном порядке обратить внимание на эту возможность”, – отмечает депутат Госдумы Антон Горелкин.
В пресс-службе Ассоциации больших данных рассказали, что повышение технологического суверенитета в области ИИ начинается именно с данных. “Яндекс” выложил в открытый доступ детализированные анонимные данные о прослушивании музыки пользователями, что дает возможность тестировать рекомендательные алгоритмы на массиве реального пользовательского поведения. Потенциал таких данных выходит за пределы музыкальных сервисов: они могут быть использованы в ритейле, медиа и других отраслях.
“Публикация таких датасетов в открытый доступ возможна не всегда – из-за рисков, связанных с высокой сложностью их полного обезличивания. В этом контексте большую ценность приобретают синтетические данные. Они позволяют моделировать реальные процессы без рисков для конфиденциальности и ограничений, связанных с доступом к персональной или корпоративной информации”, – поделились в пресс-службе.
Евгений Фролов, руководитель научной группы “Технологии персонализации” института AIRI, рассказал, что в разработке рекомендательных систем критически важна возможность предварительного тестирования различных гипотез, моделей и алгоритмов. Наиболее информативный метод такого тестирования – А/Б-тесты, когда несколько алгоритмов запускаются в продакшен.
Проведение таких тестов требует привлечения большого числа экспертов и занимает недели, поэтому широко применяются альтернативные подходы, основанные на использовании исторических данных – заранее подготовленных датасетов с паттернами пользовательского поведения.
В мире существует очень много таких наборов данных, но многие из них устаревшие – общедоступные датасеты, ранее собранные энтузиастами или компаниями, отражают пользовательское поведение прошлого – некоторым из них уже десять или даже двадцать лет, добавляет Фролов.
“Современный ИИ требует больших и качественных корпусов данных. Крупные игроки обладают ими, но у сообщества исследователей редко есть к ним доступ. Хорошие открытые датасеты всегда на вес золота – они позволяют не только обучать более умные ИИ-модели, но и развивать сами алгоритмы обучения, так как их нужно на чем-то проверять и изучать. От этого выигрывают все, в том числе и сами обладатели датасета”, – объясняет научный сотрудник Центра когнитивного моделирования Института ИИ МФТИ Петр Кудеров.
Появление большого количества открытых данных – открытых решений и моделей на их основе – создает более равные и конкурентные условия в отрасли, что стимулирует ее развитие.
Кудеров добавляет, что основное преимущество открытых наборов данных – возможность их использования. Начинающий разработчик может поработать над интересной ему задачей и получить опыт. После этого он может выложить свое решение в открытый доступ и значительно улучшить свое резюме.
“Публикация больших датасетов может стать катализатором для прогресса в разработке рекомендательных систем. В последние годы они вышли на плато по сравнению с более быстроразвивающимся технологическими областями – такими как LLM. Качество и масштаб обучающих данных напрямую влияют на релевантность рекомендаций для пользователей стриминговых сервисов, соцсетей, платформ коротких видео, маркетплейсов”, – рассказал руководитель направления по развитию качества персонализации в “Яндексе” Александр Плошкин.
По его мнению, компании публикуют наборы данных, чтобы способствовать развитию экосистемы вокруг технологий и стимулировать инновации в отрасли, позволяя вузам, исследователям и разработчикам экспериментировать с новыми подходами, от чего в конечном счете зависит развитие бизнеса.
Источник: Российская газета
В цифровой трансформации данных фокус сместился с количества на качество, внимание усилилось к безопасности и внедрению процессов и...
Эксперты и участники рынка опасаются, что мера приведет к маркетинговым убыткам
Операторам персональных данных граждан (ПД) могут...
Второй пакет поправок в законодательство, направленных на борьбу с телефонным мошенничеством, предполагает введение запрета по умолчанию на...