К содержимому
Блог
ИИДанные

Коллапс модели: что происходит, когда ИИ учится у ИИ

Модели, обученные на AI-генерированных данных, деградируют — теряют редкие знания, усиливают ошибки, теряют связь с реальностью. Разбираем механику и последствия.

Дмитрий
Опубликовано 10 марта 2025 г.
3 мин чтения

Ксерокс, копирующий ксерокс

Представьте, что вы ксерокопируете документ. Затем копируете копию. Затем копию копии. После двадцати итераций текст ещё читаем, но изображения превратились в серые пятна, тонкие детали исчезли, артефакты усилились.

Именно это происходит с языковыми моделями, которые обучаются на данных, сгенерированных другими языковыми моделями. Исследователи называют это model collapse — коллапсом модели.1

Механика деградации

В 2023 году группа исследователей из Оксфорда опубликовала работу с простым, но тревожным выводом: последовательное обучение на AI-контенте систематически разрушает модель.

Деградация происходит в два этапа:

Ранний коллапс — модель начинает игнорировать редкие, нетипичные данные. Маловероятные, но реальные события «вымываются» из распределения. Модель становится более «средней».

Поздний коллапс — разнообразие выходных данных резко падает. В крайних случаях модель выдаёт один и тот же ответ на разные вопросы.

Loading diagram…
Деградация распределения знаний через поколения AI-обучения

Масштаб проблемы

Интернет — главный источник обучающих данных для больших языковых моделей. По различным оценкам, к 2026 году более половины публичного текстового контента будет создано или значительно переработано с помощью ИИ.

ПроблемаПоследствие
Вымывание редких знанийСнижение надёжности в нестандартных ситуациях
Усиление ошибокАртефакты предыдущих моделей закрепляются
Потеря разнообразияГомогенизация языка и стиля в масштабах интернета
Накопление предвзятостейСистематические ошибки нарастают с каждым поколением

Почему редкие данные особенно важны

Парадокс в том, что «редкие» данные зачастую самые ценные.2

Медицинская диагностика критических состояний встречается редко — но именно от качества этих знаний зависит жизнь пациента. Нестандартные юридические случаи редки — но именно они требуют наибольшей точности. Инциденты информационной безопасности редки — но цена ошибки катастрофична.

Модель, которая хорошо знает «среднее» и плохо знает «края», — это модель с неприемлемым профилем риска для критических применений.

Что это значит для корпоративного ИИ

Ключевой вывод

Проприетарные данные компании не загрязнены AI-генерацией. Это делает их ценнее с каждым годом — по мере деградации открытых источников.

Проприетарные данные — защита от коллапса. Внутренние данные компании — документация, операционные записи, исторические случаи — это «чистое» распределение реальных событий, включая редкие и нестандартные.

Синтетические данные требуют осторожности. Синтетика полезна для аугментации — но не должна быть основой корпуса.

Версионирование данных важнее версионирования кода. Если вы не знаете, какой процент ваших обучающих данных был создан или переработан AI-системами — вы не контролируете качество модели.

Возможные решения

Стратегии защиты от коллапса модели

Loading diagram…

Заключение

Коллапс модели — не гипотетическая угроза. Это математически предсказуемое следствие обучения на AI-данных. Интернет как источник обучающих корпусов деградирует быстрее, чем мы успеваем осознать.

Для компаний это означает одно: собственные данные — не просто актив, а условие выживания в эпоху AI. Организации, которые накапливают, структурируют и защищают свои данные уже сегодня, через несколько лет окажутся владельцами того, что нельзя будет купить ни у OpenAI, ни у кого другого.

Footnotes

  1. Shumailov I. et al. «The Curse of Recursion: Training on Generated Data Makes Models Forget» (2023). Оксфордский университет и соавторы показали, что уже через несколько поколений рекурсивного обучения модели теряют хвосты распределения и деградируют к «среднему».

  2. Это явление известно в статистике как «проклятие усреднения» (tyranny of the majority): системы, оптимизированные на медиане, систематически проигрывают на хвостах распределения — именно там, где цена ошибки наивысшая.