Editing Openai/69256df6-133c-8005-ae25-fcf7c8af0f22 (section)

===== 大規模言語モデル（LLM）は、数十億〜数千億パラメータを持つことがあります。このようなモデルを1つのGPUに収めるのはほぼ不可能なので、複数GPUで分散学習します。分散学習には主に2種類があります： =====
# データ並列（Data Parallelism） - 各GPUにモデルのコピーを置き、ミニバッチを分割して学習。 - 1ステップごとに勾配（gradients）の同期が必要。 - 通信量は モデルのパラメータ数 × 4バイト（float32の場合） に比例。 - 大規模モデルでは勾配同期がボトルネックになりやすい。
# モデル並列（Model Parallelism） - モデル自体をGPU間で分割。 - 順伝播/逆伝播時に中間テンソルの転送が必要。 - 1ステップごとの通信量が多く、レイテンシが高いと学習速度に直結して影響。