Editing Openai/69675db8-b8dc-8013-8d6c-c3552df72868 (section)

====== 4.4. Как использовать разложение для решений о данных ======

'''(i) Выбор источников (портфель данных).'''
Оптимизируйте не «потерю вообще», а '''профиль ⟨L_model, L_resid⟩ при вашем бюджете'''.

* Если цель — '''переносимость на новые задачи/распределения''', отдавайте приоритет вариантам данных, у которых при вашем B заметно больше L_model (модель вынуждена хранить больше переносимых механизмов), а L_resid не доминирует. В статье мотивируется связь этой «модельной части» с переносимостью и приводятся сравнения между доменами данных. ([arXiv][1])

* Если L_resid огромен при низком L_model, это сигнал: данные содержат много деталей, которые при данном B остаются непредсказуемыми и плохо конвертируются в переносимые параметры (в статье так интерпретируется пример с изображениями относительно текста). ([arXiv][1])

'''(ii) Преобразования данных (очистка, генерация, симуляции).'''
Сравнивайте D_var до/после преобразования по профилю ⟨L_model, L_resid⟩ при фиксированном B.

* Полезное преобразование для переноса часто проявляется как '''рост L_model''' без взрыва L_resid.
* Преобразование, которое «делает задачу предсказания тяжелее» только за счёт шума, обычно увеличит L_resid и почти не увеличит L_model.

В статье подчёркивается, что вычислительная ограниченность делает возможным сценарий, когда детерминированная генерация (включая симуляции) повышает «информационное содержимое для вычислимого ученика», потому что обратное восстановление причин может быть вычислительно трудным. ([arXiv][1])

'''(iii) Порядок/факторизация обучающих примеров (куррикулум).'''
Отдельно рассматривайте «что именно предсказывает модель на каждом шаге». Перестановка факторов может менять, какие вычислимые стратегии становятся выгодны.

В статье показан пример с шахматами: вариант, где сначала предъявляется доска, а затем ходы, даёт более высокий «модельный битовый объём» и лучшую переносимость на задачу оценки позиции при близкой точности на задаче из распределения обучения. ([arXiv][1])

'''(iv) Онлайн‑подбор смеси данных во время предобучения.'''
Если вы используете алгоритмы, которые перераспределяют доли подмножеств по сигналам обучения (например, по скорости убывания потерь), интерпретируйте это как попытку увеличивать L_model в рамках бюджета. В статье обсуждается подход ADO для языковых моделей и его связь с ростом модельной части и с downstream‑качеством. ([arXiv][1])