Editing Openai/69675db8-b8dc-8013-8d6c-c3552df72868 (section)

===== ML.4:5 - Archetypal Grounding — Tell–Show–Show =====

====== Tell: ситуация, где метрика экономит месяцы ======

Команда планирует новый прогон предобучения. Есть два кандидата на “улучшение данных”:

* добавить большой объём изображений из открытого датасета,
* или купить лицензированный корпус доменных текстов.

На встрече звучит: «у изображений же больше информации», «тексты более качественные», «давайте проверим по перплексии». Решение подвисает: ни один аргумент не переводится в проверяемые измерения при реальном бюджете.

После внедрения ML.4 обсуждение меняется: команда строит для обоих вариантов профили ⟨L_model, L_resid⟩ при конкретном B (под бюджет кластера) и фиксированном F (архитектура + оптимизатор). В споре появляется предмет: что именно “покупается” за FLOPs — переносимые механизмы или остаточные детали.

====== Show 1 (System): выбор смеси данных для предобучения LLM под бюджет ======

'''Контекст:''' планируется обучение трансформера; бюджет и стратегия подбираются с оглядкой на compute‑оптимальность (см. scaling‑законы Kaplan 2020 и Hoffmann 2022). ([arXiv][2])

'''Кандидаты данных:'''

* веб‑корпус (например, FineWeb‑подобная очистка веба), ([arXiv][3])
* код,
* доменные PDF/тикеты,
* синтетические диалоги (генерация моделью‑предшественником).

'''Шаги:'''
# Фиксируем B (FLOPs) и семейство F (архитектура, токенизация, оптимизатор).
# Для каждого D_var строим профиль ⟨L_model, L_resid⟩ в режиме A (по кривой потерь). ([arXiv][1])
# Для 2–3 финалистов подтверждаем ранжирование режимом B (учитель→ученик). ([arXiv][1])
# Формируем смесь:

   * увеличиваем долю источников, которые дают высокий L_model при допустимом L_resid,
   * уменьшаем долю источников, где L_resid доминирует (много непредсказуемых деталей при текущем бюджете).

'''Результат для менеджера:''' решение оформляется как «портфельная карточка» с явным B, явным F, и таблицей Profile(D_var | B, F).

====== Show 2 (Episteme): записка‑обоснование по перестановке факторизации примеров ======

'''Вопрос:''' менять ли представление обучающего примера в шахматном корпусе: «доска→ходы» или «ходы→доска».

'''Действия:'''

* вычисляем профиль ⟨L_model, L_resid⟩ для двух вариантов при одинаковом B и одном семействе F;
* дополнительно фиксируем одну OOD‑проверку (оценка позиции).

'''Наблюдение из статьи:''' вариант «доска→ходы» даёт больше модельной части и лучше переносится на оценку позиции, при близком качестве на задаче из распределения обучения. ([arXiv][1])

'''Вывод в записке:'''
«Перестановка факторизации увеличивает количество бит, записываемых в параметры при заданном бюджете; эта прибавка коррелирует с переносимостью на OOD‑оценку. Риск: возможная специализация под шахматы; контроль: повторить тест на ещё одном домене последовательных данных.»