Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

=== Assistant: INTELLECT-3 は、Prime Intellect が公開した 約106BパラメータのMixture-of-Experts MoE モデルで、 ===
INTELLECT-3 は、Prime Intellect が公開した 約106BパラメータのMixture-of-Experts (MoE) モデルで、
大規模なRL（強化学習）を用いてポストトレーニングされたオープンなフロンティア級モデルです。INTELLECT-3_A_100B+_MoE_trained…

==== - ベースモデルは GLM-4.5-Air。 ====
* その上に 1. SFT（教師ありファインチューニング） 2. 大規模RL をかけた 106B MoE モデルが INTELLECT-3。
* 数学・コード・科学・推論系ベンチマークで、 同クラスのモデル中では最先端の性能を達成し、 さらに より大きい一部のフロンティアモデルも上回ると主張。
* モデル重み・トレーニングフレームワーク・データセット・RL環境・評価まで まるごとオープンソースとして公開し、「大規模RLのレシピ」を開放することがコンセプト。INTELLECT-3_A_100B+_MoE_trained…

==== ### ====
* <code>prime-rl</code> という独自の大規模RLフレームワークで、 SFT から RL・評価までを一貫して扱う「ポストトレーニング用スタック」。
* 特徴は 「完全非同期（async-only）」のオフポリシー学習。 - 長いロールアウトを伴うエージェント的RLでは、 同期SGDだと一番遅い環境に足を引っ張られるため、 常に少しオフポリシーで走る非同期方式がスケールには必須という立場。INTELLECT-3_A_100B+_MoE_trained…
* このフレームワークを、そのままプラットフォーム上から使って ユーザ自身のモデルをポストトレーニングできるようにしていく計画。

===== - <code>verifiers</code> ライブラリ＋Environments Hubで、 LLM向けRL環境・評価をモジュールとして作り、共有・バージョン管理できる仕組み。 =====
* 通常は学習コードと環境が密結合していて外部貢献やアブレーションがしづらいが、 Environments Hub では '''「独立したPythonモジュールとして環境を配布」'''し、 トレーナー側から共通のインターフェースで利用できる。INTELLECT-3_A_100B+_MoE_trained…
* Hub 上には、数学・科学・推論・コード・ディープリサーチなど 数百種類の環境が公開されている。

===== - エージェント的なRLでは「コード実行」が頻繁に必要になるため、 '''「Prime Sandboxes」'''という専用の高速実行レイヤを構築。 =====
* Kubernetes の通常パターンではレイテンシ・スループットが足りないため、 - Kubernetes コントロールプレーンを迂回する設計 - Rust から Pod への直接実行パス などで、 ローカルプロセスに近いレイテンシ・高い同時実行性能を達成したと説明。INTELLECT-3_A_100B+_MoE_trained…

===== - '''512枚の NVIDIA H200 GPU（64ノード）'''で学習。 =====
* Ansible による IaC、Slurm + cgroup v2 によるジョブ管理、 Lustre + NVMe NFS によるストレージ、DCGM + Prometheus による監視など、 大規模分散での安定稼働にかなり力を入れた構成を採用。INTELLECT-3_A_100B+_MoE_trained…

==== - 期間：約2ヶ月。 すべて 512×H200 クラスター上で実施。 ====
* ステージ構成： 1. SFTステージ：GLM-4.5-Air 上に教師あり微調整。 2. 大規模RLステージ：Environments Hub 上の多様な環境で長期RL。
* RL環境のカテゴリ： - Math - Code - Science - Logic - Deep Research - Software Engineering
* トレーニング中の推論系ベンチマークスコアは 継続的に上昇を続けており、明確な飽和には達していないとされる。INTELLECT-3_A_100B+_MoE_trained…

==== - Agentic RLのさらなるスケール - 公開チェックポイント時点でも報酬・評価は伸び続けているので、 よりエージェント的な環境比率を高めて追加学習を継続予定。 ====
* よりリッチで多様な環境 - Environments Hub には 500+ タスクがあるが、 INTELLECT-3 はその一部しか使っていない。 - 今後はより広範・高品質なコミュニティ環境へRLを拡大する。
* 長期的コンテキストを扱えるエージェント - モデル自身にコンテキスト管理（切り出し・分岐・軽量メモリなど）を学習させ、 '''「長い思考過程をRLで直接訓練」'''する方向を目指す。INTELLECT-3_A_100B+_MoE_trained…

==== - Prime Intellect は、INTELLECT-3 を単なるモデルではなく、 '''「大規模RLを含むフロンティア級モデルを誰でも訓練できるスタックの実例」'''と位置付けている。 ====
* 目的は - 特定の巨大企業のクローズドAPIに依存せず、 - スタートアップやあらゆる企業が自前のモデルとRLパイプラインを持てる世界 を実現すること。
* INTELLECT-3 は 「ビッグラボでなくても、工夫されたインフラ＋オープンなRLスタックで 十分にトップクラスと戦える」というデモでもある、とまとめている。INTELLECT-3_A_100B+_MoE_trained…