Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/692aba85-5b10-8006-817a-d5a83b020f8e
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
===== 3.3 Reinforcement Learning フェーズ ===== ====== 設定 ====== * バッチサイズ:256プロンプト × 各プロンプト16ロールアウト * 最大コンテキスト長:65,536 * オンライン難易度フィルタ+「easyプールのpass率1問題を除外」 * max_off_policy_steps = 8 * Optimizer: Muon, LR 1e-6 * クラスタ構成: - 60ノード(計480 H200)を使用 - うち 16ノードを Trainer、44ノードを Inference に割り当て(≒1:3) - in-flight weight update ありの場合、1ステップ ≈1500秒 なしだと 2倍以上かかる ====== 学習アルゴリズム:masked importance sampling(IcePop系) ====== 目的:非同期 off-policy による trainer-inference ミスマッチを安全にコントロールすること。INTELLECT_3_Technical_Report 数式的には、N本のロールアウト {y_i} に対して * 重要度比 ri,t=πtrain(yi,t∣x,yi,<t;θ)πinfer(yi,t∣x,yi,<t;θold)r_{i,t} = \frac{\pi_{\text{train}}(y_{i,t}|x,y_{i,<t};\theta)}{\pi_{\text{infer}}(y_{i,t}|x,y_{i,<t};\theta_\text{old})}ri,t=πinfer(yi,t∣x,yi,<t;θold)πtrain(yi,t∣x,yi,<t;θ) * これを [α, β] = [0.5, 5] の範囲内にあるトークンだけ採用し、それ以外はマスク(寄与0) * ロールアウト i の報酬 Sᵢ に対し、同一プロンプト内で平均を引いた A^i,t=Si−mean(Sj)\hat{A}_{i,t} = S_i - \text{mean}({S_j})A^i,t=Si−mean(Sj) をトークンごとの advantage とみなす * さらに どこか1トークンでも重要度比が非常に小さい(< 1e-5)ロールアウトは全体を破棄 という設計です。 これは CISPO に近い発想ですが、clipping ではなく masking にすることで、比率が暴れたサンプルがノイズとして残るのを防いでいる、と説明しています。図10(p18)では、GSPO と CISPO 系アルゴリズムを比較したとき、GSPO が高 off-policy 設定(async-8)で突然 reward 崩壊を起こす様子が示され、これが実験上の安全性問題になると述べています。 ====== オンライン評価 ====== 図9(p17)では、AIME24/25, HLE, LiveCodeBench, GPQA のスコアが、ステップを追うごとに着実に上昇していることが示されています。 * どのベンチマークも まだ明確に頭打ちになっていない → さらに RL を継続すればまだ伸びる余地がある、というのが著者の結論です。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)