Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

====== 2.1.6 長いシーケンス長への対応 ======

RL中に自然とシーケンス長が伸びる（長く考えるようになる）ため、48k〜72kトークン級での訓練を効率的に回す必要があります。INTELLECT_3_Technical_Report

アプローチは2つ：
# Context Parallelism（Ring Attention系） - Q/K/V をGPU間で回しながら注意を計算 - 256kトークンまで伸ばせたが、 - データ並列度が半減 - 精度劣化も見られた → 本番設定には不採用
# Activation Offloading - 層出力だけ保存し、中間活性はバックプロップ時に再計算（フルチェックポイント） - さらに出力アクティベーションをCPUへオフロード（torchtuneベース） - これで 48k → 72k まで伸ばしつつ、MFU低下は 0.1% 程度に抑えた