Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

====== 2.2.1 環境の構成要素 ======
# dataset - 各行が1問題：入力プロンプト＋メタデータ（正解、テストケースなど）
# rollout メソッド - 1問題＋OpenAI互換クライアントを受け取り、 - ツール呼び出しやマルチターン対話を含む一連の行動を実行 - 学習に必要なログ（token ids, logprobs 等）を収集
# Rubric - 複数の reward function をまとめる抽象 - 各 reward は (プロンプト, completion, 正解, rollout state) を受けてスカラーを返す - 重み付き合成で最終報酬を作る - 投票・ランキングなど相対評価にも対応
# load_environment - 前処理やリソース確保を行い、環境インスタンスを生成するエントリポイント

ロールアウトは asyncio ベースで非同期に大量並列実行。図6（p10）のクラス階層では、
* Environment（基底）
* MultiTurnEnv（マルチターン）
* ToolEnv / StatefulToolEnv（ツール呼び出し）
* SandboxEnv（コンテナ実行）
* CodeEnv（テストケース付きコード環境）

と段階的に機能が拡張される様子が示されています。INTELLECT_3_Technical_Report