Коллапс модели: что происходит, когда ИИ учится у ИИ

Ксерокс, копирующий ксерокс

Представьте, что вы ксерокопируете документ. Затем копируете копию. Затем копию копии. После двадцати итераций текст ещё читаем, но изображения превратились в серые пятна, тонкие детали исчезли, артефакты усилились.

Именно это происходит с языковыми моделями, которые обучаются на данных, сгенерированных другими языковыми моделями. Исследователи называют это model collapse — коллапсом модели.¹

Механика деградации

В 2023 году группа исследователей из Оксфорда опубликовала работу с простым, но тревожным выводом: последовательное обучение на AI-контенте систематически разрушает модель.

Деградация происходит в два этапа:

Ранний коллапс — модель начинает игнорировать редкие, нетипичные данные. Маловероятные, но реальные события «вымываются» из распределения. Модель становится более «средней».

Поздний коллапс — разнообразие выходных данных резко падает. В крайних случаях модель выдаёт один и тот же ответ на разные вопросы.

Loading diagram…

Деградация распределения знаний через поколения AI-обучения

Масштаб проблемы

Интернет — главный источник обучающих данных для больших языковых моделей. По различным оценкам, к 2026 году более половины публичного текстового контента будет создано или значительно переработано с помощью ИИ.

Проблема	Последствие
Вымывание редких знаний	Снижение надёжности в нестандартных ситуациях
Усиление ошибок	Артефакты предыдущих моделей закрепляются
Потеря разнообразия	Гомогенизация языка и стиля в масштабах интернета
Накопление предвзятостей	Систематические ошибки нарастают с каждым поколением

Почему редкие данные особенно важны

Парадокс в том, что «редкие» данные зачастую самые ценные.²

Медицинская диагностика критических состояний встречается редко — но именно от качества этих знаний зависит жизнь пациента. Нестандартные юридические случаи редки — но именно они требуют наибольшей точности. Инциденты информационной безопасности редки — но цена ошибки катастрофична.

Модель, которая хорошо знает «среднее» и плохо знает «края», — это модель с неприемлемым профилем риска для критических применений.

Что это значит для корпоративного ИИ

Ключевой вывод

Проприетарные данные компании не загрязнены AI-генерацией. Это делает их ценнее с каждым годом — по мере деградации открытых источников.

Проприетарные данные — защита от коллапса. Внутренние данные компании — документация, операционные записи, исторические случаи — это «чистое» распределение реальных событий, включая редкие и нестандартные.

Синтетические данные требуют осторожности. Синтетика полезна для аугментации — но не должна быть основой корпуса.

Версионирование данных важнее версионирования кода. Если вы не знаете, какой процент ваших обучающих данных был создан или переработан AI-системами — вы не контролируете качество модели.

Возможные решения

Стратегии защиты от коллапса модели