Искусственный интеллект теряет точность из-за обучения на сгенерированных данных
Сегодня все больше языковых моделей обучаются на данных, сгенерированных другими нейросетями. Появился термин Model collapse – процесс, при котором модели искусственного интеллекта (ИИ) теряют способность точной работы из-за обучения на сгенерированных ранее данных. Эксперты отмечают, что уже появились методы, способные сохранить надежность ИИ-систем.
К грязным данным относятся некорректные или некачественные наборы информации, содержащие ошибки, искажения, неправильный контекст или нестабильное форматирование. Они могут включать в себя ложные факты, неполные фразы, неестественные языковые конструкции, а также дублирование и шаблонность. При обучении на таких данных модель усваивает ошибочные или упрощенные паттерны, и это снижает ее работоспособность.
Андрей Кулинич, ведущий преподаватель МИРБИС и ИИ-архитектор, указывает на две основные причины “загрязнения” данных. Первая – неполнота информации, когда модель при генерации может опускать детали или делать ошибочные выводы. Вторая – проблема испорченного телефона: если модель, обученная на синтетических данных, будет генерировать “синтетику” для других моделей, то происходит вырождение – накопление ошибок и потеря связи с реальными фактами.
“Под термином model collapse подразумевают деградацию знаний ИИ-модели, когда она со временем теряет способность распознавать редкие паттерны, теряя свою полезность для решения практических задач”, – отмечает руководитель научной группы “Адаптивные агенты” Института AIRI Владислав Куренков.
Он добавляет, что синтетические данные от других ИИ – полезный инструмент, но для их эффективного применения необходима доработка и фильтрация, а также четкое понимание задачи использования. В “сыром виде” они могут быть искажены спецификой предыдущей ИИ-модели, а это может привести к “имитации имитации”, ухудшая качество работы модели.
“Некоторые разработчики внедряют специальные метки для идентификации текстов, созданных моделями – “водяные знаки”. Но только на такие методы полагаться нельзя. Решением является тщательная предварительная обработка: удаление синтетических данных из обучающей выборки, оценка надежности источников, фильтрация сомнительных материалов и методы “выравнивания” моделей”, – рассказал заведующий лабораторией нейронных систем и глубокого обучения Исследовательского центра агентных систем ИИ МФТИ Попов Александр.
Существуют рекомендации сообщества разработчиков в виде кодексов этики, а также регуляторные требования к решениям в отдельных отраслях. Однако в целом общепринятых методов борьбы с ростом объемов данных, генерируемых в интернете, пока нет.
В AIRI добавляют, что для предотвращения деградации разработчики применяют методы отслеживания происхождения данных, фильтрации синтетических источников и приоритизации примеров, созданных человеком. Кроме того, активно используется обучение с человеческой оценкой (RLHF) и регулярное обновление данных на свежих и достоверных источниках.
“Если мы хотим от ИИ точности и языковой гибкости, необходимо строже подходить к выбору обучающего корпуса. Самый надежный способ – использовать авторскую художественную или научно-техническую литературу и материалы профессиональных журналистов. Технически можно оценивать частотность и разнообразие токенов перед включением контента в корпус, чтобы контролировать качество данных на входе”, – отмечают в Ассоциации больших данных.
На уровне отрасли в России пока нет единых стандартов отбора данных. Компании самостоятельно создают корпуса для обучения, и некоторые выкладывают их в открытый доступ, чтобы поддерживать развитие ИИ в стране.
“Чтобы минимизировать риски деградации модели, важно сохранить в фундаменте обучения реальные данные и контролировать долю синтетических – они не должны превышать 20-30% от всего обучающего корпуса модели. Важно использовать проверенные источники, а также регулярно очищать датасеты от ошибок”, – заключает руководитель продуктового ML-направления Yandex Cloud Артур Самигуллин.
Источник: Российская газета
Минцифры опубликовало новую версию поправок, согласно которым силовые органы смогут получать информацию от маркетплейсов и классифайдов....
Рынок не согласился с Минцифры в вопросе о плате за информационную инфраструктуру
Ассоциация больших данных (АБД) раскритиковала...
Ассоциация больших данных предложила компромиссные решения по ограничению перечня данных, за которые компании должны...