Как российские разработчики решают проблему деградации нейросетей - Ассоциация больших данных
Как российские разработчики решают проблему деградации нейросетей
19 июня 2025

Искусственный интеллект теряет точность из-за обучения на сгенерированных данных

Сегодня все больше языковых моделей обучаются на данных, сгенерированных другими нейросетями. Появился термин Model collapse – процесс, при котором модели искусственного интеллекта (ИИ) теряют способность точной работы из-за обучения на сгенерированных ранее данных. Эксперты отмечают, что уже появились методы, способные сохранить надежность ИИ-систем.

К грязным данным относятся некорректные или некачественные наборы информации, содержащие ошибки, искажения, неправильный контекст или нестабильное форматирование. Они могут включать в себя ложные факты, неполные фразы, неестественные языковые конструкции, а также дублирование и шаблонность. При обучении на таких данных модель усваивает ошибочные или упрощенные паттерны, и это снижает ее работоспособность.

Андрей Кулинич, ведущий преподаватель МИРБИС и ИИ-архитектор, указывает на две основные причины “загрязнения” данных. Первая – неполнота информации, когда модель при генерации может опускать детали или делать ошибочные выводы. Вторая – проблема испорченного телефона: если модель, обученная на синтетических данных, будет генерировать “синтетику” для других моделей, то происходит вырождение – накопление ошибок и потеря связи с реальными фактами.

“Под термином model collapse подразумевают деградацию знаний ИИ-модели, когда она со временем теряет способность распознавать редкие паттерны, теряя свою полезность для решения практических задач”, – отмечает руководитель научной группы “Адаптивные агенты” Института AIRI Владислав Куренков.

Он добавляет, что синтетические данные от других ИИ – полезный инструмент, но для их эффективного применения необходима доработка и фильтрация, а также четкое понимание задачи использования. В “сыром виде” они могут быть искажены спецификой предыдущей ИИ-модели, а это может привести к “имитации имитации”, ухудшая качество работы модели.

“Некоторые разработчики внедряют специальные метки для идентификации текстов, созданных моделями – “водяные знаки”. Но только на такие методы полагаться нельзя. Решением является тщательная предварительная обработка: удаление синтетических данных из обучающей выборки, оценка надежности источников, фильтрация сомнительных материалов и методы “выравнивания” моделей”, – рассказал заведующий лабораторией нейронных систем и глубокого обучения Исследовательского центра агентных систем ИИ МФТИ Попов Александр.

Существуют рекомендации сообщества разработчиков в виде кодексов этики, а также регуляторные требования к решениям в отдельных отраслях. Однако в целом общепринятых методов борьбы с ростом объемов данных, генерируемых в интернете, пока нет.

В AIRI добавляют, что для предотвращения деградации разработчики применяют методы отслеживания происхождения данных, фильтрации синтетических источников и приоритизации примеров, созданных человеком. Кроме того, активно используется обучение с человеческой оценкой (RLHF) и регулярное обновление данных на свежих и достоверных источниках.

“Если мы хотим от ИИ точности и языковой гибкости, необходимо строже подходить к выбору обучающего корпуса. Самый надежный способ – использовать авторскую художественную или научно-техническую литературу и материалы профессиональных журналистов. Технически можно оценивать частотность и разнообразие токенов перед включением контента в корпус, чтобы контролировать качество данных на входе”, – отмечают в Ассоциации больших данных.

На уровне отрасли в России пока нет единых стандартов отбора данных. Компании самостоятельно создают корпуса для обучения, и некоторые выкладывают их в открытый доступ, чтобы поддерживать развитие ИИ в стране.

“Чтобы минимизировать риски деградации модели, важно сохранить в фундаменте обучения реальные данные и контролировать долю синтетических – они не должны превышать 20-30% от всего обучающего корпуса модели. Важно использовать проверенные источники, а также регулярно очищать датасеты от ошибок”, – заключает руководитель продуктового ML-направления Yandex Cloud Артур Самигуллин.

20.06.2025
Шире круг: силовики получат данные о местоположении пользователей маркетплейсов

Минцифры опубликовало новую версию поправок, согласно которым силовые органы смогут получать информацию от маркетплейсов и классифайдов....

20.06.2025
У данных затраты велики

Рынок не согласился с Минцифры в вопросе о плате за информационную инфраструктуру

Ассоциация больших данных (АБД) раскритиковала...

19.06.2025
Ассоциация больших данных выступила за компромисс с правительством

Ас­со­циа­ция боль­ших дан­ных пред­ло­жила ком­про­мис­сные ре­шения по ог­ра­ниче­нию пе­реч­ня дан­ных, за ко­торые ком­па­нии дол­жны...