Openai/69265508-3618-8006-8039-974c385cf126

This conversation was exported from ChatGPT^[1]

gpt-5-1-pro edit

User: https://www.alphaxiv.org/abs/2511.16652v1 edit

https://www.alphaxiv.org/abs/2511.16652v1

Assistant: 1. edit

1. 개념적 체크리스트 edit

논문이 다루는 연구 배경과 “ES를 초대형 모델까지 스케일링”이라는 문제 정의 정리
기존 Evolution Strategies(ES)와 LoRA식 저랭크 아이디어, 그리고 EGGROLL의 핵심 설계 설명
저랭크 ES 업데이트가 풀랭크 ES에 얼마나 잘 근사되는지에 대한 이론 결과(O(1/r) 수렴률) 개괄
세 가지 실험 축(정수 RNN 언어모델 프리트레이닝, 강화학습, LLM reasoning 파인튜닝)의 설정과 주요 결과 정리
논문이 주장하는 기여점과 한계, 그리고 저자들이 제시한 향후 연구 방향 정리
이해에 중요한 개념·수식(ES, matrix Gaussian, low-rank perturbation, EGG, O(1/r) 등) 한국어로 풀이

2. 논문 전체의 핵심 아이디어를 쉬운 한국어로 설명 edit

이 논문이 하는 말은 한 줄로 요약하면:

“백프로 그래디언트 없이도, 진화 전략(ES)을 LoRA식 저랭크 업데이트로 바꿔서, 수십억 파라미터짜리 모델을 ‘추론 속도에 거의 근접하는 속도’로 학습시키겠다.”

arXiv

기존 ES는 “파라미터 전체에 가우시안 노이즈를 뿌린 여러 개의 모델(개체)을 만들고, 각 개체의 성능(피트니스)을 보고, 그 방향으로 파라미터를 조금씩 옮기자”라는 아이디어입니다. 문제는 모델이 커질수록, 개체 수(population)를 크게 할수록, 엄청난 메모리와 연산량이 든다는 점입니다. 각 개체마다 파라미터 전체를 복사해서 노이즈를 더해야 하니까요. 그래서 ES는 “병렬화는 잘 되는데, 너무 비싸서 대형 모델 학습에는 못 쓴다”는 인식이 있었습니다.arXiv^[2]

이 논문은 여기서 LoRA(low-rank adaptation) 아이디어를 ES에 그대로 들고 옵니다. 파라미터 행렬 W∈Rm×nW \in \mathbb{R}^{m \times n}W∈Rm×n 에 풀랭크 노이즈 EEE를 얹는 대신, 두 개의 가느다란 행렬 A∈Rm×r,B∈Rn×rA \in \mathbb{R}^{m\times r}, B \in \mathbb{R}^{n\times r}A∈Rm×r,B∈Rn×r (r은 작은 랭크)를 샘플링해서 E=1rAB⊤E = \sqrt{\frac{1}{r}}AB^\topE=r1AB⊤ 로 만든다는 것입니다. 그러면 한 레이어당 저장해야 할 노이즈는 원래 mnmnmn개에서 r(m+n)r(m+n)r(m+n)개로 줄어듭니다. 또 이 저랭크 노이즈를 “여러 개체용 LoRA 어댑터 묶음”으로 생각하고, 한 번의 전방패스에서 모든 개체를 동시에 계산하도록 커널을 짜면, 추론 배치와 거의 같은 패턴으로 학습을 돌릴 수 있습니다.arXiv^[3]

중요한 건, 이렇게 하면 개별 노이즈는 저랭크지만, 최종 업데이트는 ‘개체 수 × 랭크’ 만큼 랭크가 늘어나서 사실상 풀랭크에 가깝게 된다는 점입니다. 즉, 표현력은 보존하면서도 메모리와 연산을 크게 줄입니다.arXiv^[4]

저자들은 이 구조를 EGGROLL(Evolution Guided General Optimization via Low-rank Learning) 이라고 부르고, 다음 세 가지를 보여 줍니다.arXiv^[5]

이론적으로, 저랭크 ES 업데이트가 풀랭크 ES 업데이트에 O(1/r) 속도로 수렴한다(보통 CLT가 주는 O(1/√r)보다 빠름).arXiv^[6]
실험적으로, - tabula-rasa RL + multi-agent RL에서는 기존 풀랭크 ES(OpenES)와 비슷하거나 더 좋은 성능을 내면서 훨씬 빠르게 학습하고,arXiv^[7] - LLM reasoning 파인튜닝(Countdown, GSM8K)에서 GRPO보다 더 높은 validation 스코어를 더 빠른 벽시계 시간 내에 달성하며,arXiv^[8] - 완전히 정수(int8)만 쓰는 비선형 RNN 언어모델을 처음부터 끝까지 안정적으로 프리트레이닝 할 수 있다.arXiv^[9]
시스템 관점에서, EGGROLL 구현은 LoRA-style 배치 추론과 거의 같은 패턴을 사용하기 때문에, 추론과 거의 비슷한 속도로 학습이 돌아간다. 그림 2(a)를 보면, 순수 inference 속도를 100으로 정했을 때 EGGROLL 91, PPO 34, OpenES 0.41 의 상대 속도가 나오는데, ES 계열 안에서는 사실상 추론과 비슷한 수준까지 올라갑니다.arXiv^[10]

전체적으로 이 논문은 “ES도, 잘 설계하면 초대형 모델에서 실제로 쓸 수 있다”는 걸 이론·시스템·실험 모두로 밀어붙인 작업으로 볼 수 있습니다.

3. 구조화된 한국어 요약 edit

연구 배경과 문제 정의 edit

분야: 대규모 신경망 학습, 진화 전략(Evolution Strategies, ES), 강화학습, LLM 파인튜닝, 순수 정수(integer-only) 모델 학습.
핵심 문제: - ES는 비미분 가능 모델·목적 함수도 최적화할 수 있고, 병렬화에 매우 잘 맞는 장점이 있어 대형 모델 훈련의 유망한 대안으로 자주 언급됩니다.arXiv^[11] - 하지만 현대 딥러닝에서 파라미터는 대부분 거대한 행렬이고, naive ES는 각 개체마다 전체 파라미터 행렬을 복제하고 가우시안 노이즈를 더해야 하므로, 메모리와 연산량이 파라미터 수 × population size에 비례해서 터져 버립니다.arXiv^[12] - 특히 수십억(parm ~ billions) 파라미터 모델과 큰 population을 함께 쓰고 싶으면, matrix perturbation과 batched matmul 비용이 지배적이 되어 ES가 사실상 불가능해집니다.arXiv^[13]

=> 따라서, 저자들이 보는 핵심 질문은:

“ES의 장점(비미분 가능, 병렬화 친화)을 유지하면서, 초대형 모델 및 큰 population에서도 실제로 돌아갈 수 있을 만큼 메모리·연산 효율을 어떻게 확보할까?”

기존 접근법과 그 한계 edit

기존 ES (OpenES 등) - 각 파라미터 행렬 WWW에 대해, 가우시안 노이즈 행렬 E∈Rm×nE \in \mathbb{R}^{m\times n}E∈Rm×n 를 샘플링 후 W+σEW + \sigma EW+σE로 업데이트. - population 크기가 N이면, N개의 풀랭크 행렬을 따로 저장하고, 각자에 대해 matmul을 수행해야 합니다. 이때 per-layer 메모리 오버헤드는 mnmnmn, 연산량은 O(mnN).arXiv^[14] - 결과적으로 초대형 모델에서는 메모리 복제와 텐서 이동 비용이 병목이 됩니다.
기존 LLM 파인튜닝 / LoRA - gradient 기반 학습에서는 LoRA가 저랭크 행렬 A,BA,BA,B 를 학습해서 W+AB⊤W + AB^\topW+AB⊤ 형태로 파라미터를 효율적으로 바꾸는 기법으로 널리 사용됩니다. 이는 학습 파라미터 수를 mnmnmn에서 r(m+n)r(m+n)r(m+n)으로 줄여 줍니다.arXiv^[15] - 그러나 ES 쪽에서는 LoRA 스타일의 저랭크 노이즈를 체계적으로 쓰면서, 이론까지 갖춰 준 방법은 없었습니다.

즉, 기존에는

ES는 표현력·견고성은 좋은데 너무 비싸고,
LoRA는 효율적이지만 gradient가 있어야 사용 가능했습니다.

제안하는 방법/모델/이론의 핵심 아이디어 edit

3.1 EGGROLL: 저랭크 ES 알고리즘 edit

논문의 주인공은 EGGROLL(Evolution Guided General Optimization via Low-rank Learning) 입니다. 요지를 풀어서 쓰면:

풀랭크 노이즈 대신 저랭크 노이즈 사용 - 기존 ES: E∼N(0,I)E \sim \mathcal{N}(0, I)E∼N(0,I), W′=W+σEW' = W + \sigma EW′=W+σE. - EGGROLL: - A∈Rm×r,B∈Rn×rA \in \mathbb{R}^{m\times r}, B \in \mathbb{R}^{n\times r}A∈Rm×r,B∈Rn×r 를 i.i.d. 대칭 분포에서 샘플링하고, - E=1rAB⊤E = \sqrt{\frac{1}{r}}AB^\topE=r1AB⊤ 를 perturbation으로 사용.arXiv^[16] - 이렇게 하면 레이어당 노이즈 저장량이 mn→r(m+n)mn \rightarrow r(m+n)mn→r(m+n) 로 줄고, - 추가 연산량도 O(mnN) → O((m+n)rN) 로 줄어듭니다.arXiv^[17]
업데이트는 여전히 풀랭크 - population에 대해 여러 개의 저랭크 업데이트 EiE_iEi 를 평균하면, - 최종 업데이트 랭크는 rank(∑iEi)≤min⁡(Nr,m,n)\text{rank}(\sum_i E_i) \le \min(Nr, m, n)rank(∑iEi)≤min(Nr,m,n) 이 됩니다. - 실험에서는 Nr가 m,n보다 크도록 잡아서 사실상 풀랭크 업데이트가 되게 합니다. 즉, 계산은 저랭크처럼, 업데이트는 풀랭크처럼.arXiv^[18]
하드웨어 친화 구현 - LoRA와 유사하게, 각 개체의 저랭크 A,BA,BA,B 를 “어댑터”로 보고, - 기저 모델의 forward activation을 공유하면서, 특수한 batched matmul 커널로 모든 개체의 AB⊤AB^\topAB⊤를 한 번에 적용합니다. - 또한 counter-based RNG(예: JAX PRNG)를 사용해 필요할 때마다 노이즈를 재생성하므로, 노이즈 자체를 메모리에 오래 들고 있을 필요가 없습니다.arXiv^[19]
알고리즘 레벨에서의 ES 구조는 그대로 - Salimans et al. 식의 병렬 ES 알고리즘을 계승하되, - “노이즈 생성 + 평가 + 가중 평균” 파이프라인이 모두 저랭크 버전으로 바뀝니다.arXiv^[20]

3.2 이론: O(1/r) 수렴하는 저랭크 ES 업데이트 edit

저자들은 “이 저랭크 업데이트가 원래 풀랭크 ES 업데이트를 얼마나 잘 근사하는가?” 를 수식으로 분석합니다. 핵심은:

우선 ES를 행렬 가우시안 분포 위의 정책으로 다시 쓰고, 그 gradient를 score function(∇ log p) 형태로 표현합니다.arXiv^[21]
저랭크 케이스에서는 직접적인 density p(E)p(E)p(E)를 쓰기 어렵기 때문에, - Z=1rAB⊤+ϵZ = \sqrt{\frac{1}{r}}AB^\top + \epsilonZ=r1AB⊤+ϵ (여기서 ε는 작은 가우시안 잡음) 형태로 완전히 정의된 분포 p(Z)p(Z)p(Z)를 만들고, - 이 분포의 score function을 이용해 gradient를 작성합니다.arXiv^[22]
이론의 메인 결과(Theorem 2): - 적당한 조건(피트니스 f가 bounded, 노이즈 분포가 대칭 등) 하에서, - 저랭크 근사 gradient g^rLR \hat{g}^{LR}_rg^rLR와 진짜 풀랭크 ES gradient gTrueg_\text{True}gTrue 의 거리(프로베니우스 노름)가 ∥g^rLR−gTrue∥F=O ⁣(1r)\| \hat{g}^{LR}_r - g_\text{True} \|_F = O\!\left(\frac{1}{r}\right)∥g^rLR−gTrue∥F=O(r1) 로 줄어든다고 증명합니다.arXiv^[23]
이 O(1/r)는 일반적인 “파라미터 수 r이 증가할 때 중심극한정리(CL T)가 주는 O(1/√r)보다 빠른” 수렴률로, - 그 이유는 대칭 분포를 쓴 덕에 홀수차 누적(generalized cumulant)이 0이 되어, 4차부터 지배되기 때문이라고 설명합니다.arXiv^[24]
또한, 실제 marginal 분포 p(zij)p(z_{ij})p(zij)에 대해 score × density를 그림 3에 시각화해 보면, - r=1에서도 그럭저럭 괜찮은 근사이고, r≥10 정도면 거의 limit 가우시안과 구분이 안 되는 것을 보여 줍니다.arXiv^[25]

이론적으로 “랭크가 작아도 생각보다 훨씬 괜찮다”는 근거를 준 셈입니다.

실험 설정(데이터셋, 비교 대상, 평가 지표 등)과 주요 결과 edit

논문은 세 축의 실험을 합니다.

3.3.1 순수 정수 RNN 언어모델 프리트레이닝 (6.1 섹션) edit

목표: “EGGROLL이 gradient 없이도 순수 정수(int8-only) 비선형 RNN 언어모델을 안정적으로 프리트레이닝 할 수 있는가?”arXiv^[26]

모델 아키텍처: EGG (Evolved Generative GRU) - 6층 RNN, hidden dimension 256, 문자 단위(char-level) 언어모델.arXiv^[27] - 제약 조건: 1. Pure Integer Training: - 모든 weight는 int8, accumulation은 int32; 학습 전체에서 float로 캐스팅을 한 번도 하지 않음.arXiv^[28] 2. Nonlinear RNN: - Transformer/SSM 대신 GRU 계열(minGRU 변형)을 사용. - EGGROLL은 BPTT가 필요 없으므로 무한 길이 시퀀스도 이론상 가능.arXiv^[29] 3. 명시적 activation 제거: - ReLU나 tanh를 모두 제거하고, int8의 포화(saturation) 연산에서 나오는 비선형성만 사용.arXiv^[30] - LayerNorm도 sqrt를 피하기 위해 L2 대신 L1 기반 변형을 쓰고, self-attention은 custom GRU로 대체.arXiv^[31]
데이터 & 학습 설정 - 데이터셋: minipile (The Pile의 소형 버전) 문자 단위 예측.arXiv^[32] - Truncated ES: population member마다 100 토큰마다 업데이트, hidden state는 문서 경계에서만 리셋.arXiv^[33] - Population size를 64에서 262,144(2¹⁸) 까지 스케일링.arXiv^[34]
평가 지표 - Test loss (bits per byte).
주요 결과 - 그림 2(b): population size가 커질수록 loss 곡선이 매끄럽고, 최종 테스트 loss가 개선됩니다. - 최선의 테스트 loss는 약 3.41 bits/byte.arXiv^[35] - 가장 큰 population 262,144는 Salimans et al.(2017)의 가장 큰 ES 실험보다 두 자릿수(×100) 정도 더 큰 population이지만, 단일 GPU로 학습 가능했다고 강조합니다.arXiv^[36] - population을 8배 늘릴 때마다 loss가 약 0.4 정도씩 꾸준히 떨어지는 패턴을 관찰(물론 이 패턴은 결국 한계에 도달).arXiv^[37] - 정수-only, 비선형 RNN, activation 제거 조건임에도 훈련이 매우 안정적이고, nan이나 큰 스파이크 없이 잘 수렴합니다.arXiv^[38]

3.3.2 강화학습 실험 (6.2 섹션) edit

목표: “EGGROLL이 tabula-rasa RL에서 기존 OpenES, PPO와 비교해 성능/속도 면에서 어떤지?”arXiv^[39]

환경 & 네트워크 - 환경 스위트: Navix, Craftax, Brax, Kinetix, Jumanji 등 다양한 RL 벤치마크에서 총 16개 환경 선정.arXiv^[40] - 정책 네트워크: 3층, 각 256 유닛의 MLP.arXiv^[41] - PPO는 기존 구현을 사용; EGGROLL과 OpenES는 동일한 파이프라인에서 구현.
비교 대상 알고리즘 - EGGROLL (저랭크 ES) - OpenES (풀랭크 ES) - PPO (gradient 기반 정책경사)
하이퍼파라미터 최적화 - 각 환경-알고리즘 쌍마다, 주요 하이퍼파라미터 범위를 정하고 20회 랜덤 서치. - 각 trial에서 최종 평균 return이 가장 높은 설정을 고른 뒤, - 그 설정으로 10개의 seed를 돌려 평균과 standard error를 보고.arXiv^[42]
평가 지표 - PPO 성능으로 normalized return (PPO=1 기준 상대 성능).arXiv^[43] - 학습 wall-clock 시간과 throughput(초당 경험 수).
주요 성능 결과 - 16개 환경 기준으로 EGGROLL vs OpenES 비교: - 7개 환경은 비슷(competitive), - 2개 환경에서는 EGGROLL가 열세, - 7개 환경에서는 EGGRoll가 우세.arXiv^[44] - PPO와의 비교에서는 환경에 따라 우열이 갈리지만, EGGROLL은 PPO와 비슷한 성능 수준을 유지하면서도 ES 계열 중에서는 압도적인 속도를 보여 줍니다.arXiv^[45]
속도(throughput) 결과 - 그림 2(a): experience throughput을 순수 inference 최대 배치 throughput=100으로 정규화했을 때, - EGGROLL ≈ 91, - PPO ≈ 34, - OpenES ≈ 0.41.arXiv^[46] - 세부 Appendix 실험에서는 환경에 따라 OpenES 대비 2배~40배 이상 빠른 케이스도 보고됩니다 (예: Jumanji Snake에서 약 40×).arXiv^[47]

즉, “풀랭크 ES보다 훨씬 빠르고, 성능도 비슷하거나 오히려 좋은 경우가 많다”는 메시지입니다.

3.3.3 LLM Reasoning 파인튜닝 (6.3 섹션) edit

목표: “GRPO 같은 gradient 기반 RLHF-ish 방법과 비교했을 때, EGGROLL이 LLM reasoning task에서 경쟁력이 있는가?”arXiv^[48]

모델 & 태스크 - 모델: RWKV-7 계열 recurrent LLM (1.5B, 7B 등). - RNN 구조라서 KV cache가 고정 크기라, population 병렬화에 특히 잘 맞습니다.arXiv^[49] - 태스크: - Countdown (수조합 게임) - GSM8K (수학 문제 reasoning)
비교 대상 - EGGROLL vs GRPO (Group Relative Policy Optimization, RLHF 계열 방법).
병렬화 설정 - Countdown (RWKV-7 1.5B, 단일 GPU): - EGGROLL: GPU당 1024 개체 병렬 생성 - GRPO: GPU당 32 rollouts - GSM8K (RWKV-7 7B, 8 GPUs): - EGGROLL: 전체 8096 병렬 generation (GPU당 1024) - GRPO: 전체 256 (GPU당 32).arXiv^[50]
스코어링 방식 - 하나의 batch에 여러 noise 방향 EiE_iEi와 여러 질문 q_j가 섞여 있는 상황에서, - 질문별로 accuracy를 모아 z-score를 계산하고, 이걸 평균해서 각 noise 방향의 점수를 산출하는 방식.arXiv^[51]
결과 - Countdown: - 동일 하드웨어·벽시계 시간 기준, EGGROLL이 약 35% validation accuracy, GRPO는 약 23% 정도에서 수렴.arXiv^[52] - GSM8K: - 그림 5(b)에서 EGGROLL이 GRPO 대비 더 높은 validation score에 도달하며, 속도도 경쟁력 있음.arXiv^[53]

이 실험은 “ES 기반 방법이 LLM reasoning에도 통한다”는 것을, GRPO라는 강한 baseline과 비교해 보여 줍니다.

논문의 주요 기여점 정리 edit

논문에서 주장하거나, 텍스트상 명확해 보이는 기여를 정리하면:

초대형 모델·대형 population용 저랭크 ES 알고리즘 EGGROLL 제안 - LoRA 스타일 저랭크 행렬 A,BA,BA,B를 노이즈로 사용해, 메모리·연산 오버헤드를 mn→r(m+n)mn → r(m+n)mn→r(m+n) 및 O(mnN → (m+n)rN) 으로 줄이면서, 최종 업데이트는 풀랭크에 가깝게 유지.arXiv^[54]
저랭크 ES 업데이트의 정확한 이론 분석 - matrix Gaussian ES 공식화와 함께, 저랭크 근사 gradient가 풀랭크 gradient에 O(1/r) 로 수렴한다는 결과를 제시(Edgeworth expansion 사용).arXiv^[55]
실질적으로 추론 속도에 근접하는 ES 학습 시스템 구현 - LoRA-style batched matmul, counter-based RNG 등을 활용해, billion-parameter 모델에서 추론 throughput의 ~91%에 해당하는 학습 속도를 달성.arXiv^[56]
새로운 순수 정수 언어모델 EGG와 그 대규모 ES 프리트레이닝 시연 - activation을 전부 제거하고, int8 saturation만으로 비선형성을 구현한 GRU 계열 RNN을, population 262k까지 스케일링하여 단일 GPU에서 안정적으로 학습.arXiv^[57]
RL 및 LLM reasoning에서의 폭넓은 실증 평가 - 다양한 RL 스위트 16개 환경에서 OpenES와 비교해 비슷하거나 우월한 성능을 보이며, LLM reasoning(GSM8K, Countdown)에서는 GRPO 대비 더 높은 validation 성능을 보여, ES가 실제 최신 LLM 파인튜닝 워크로드에서도 경쟁력이 있음을 입증.arXiv^[58]

한계점 및 향후 연구 방향 edit

논문과 결론에서 직접 언급하거나 암시하는 한계/미완 부분은:

이론이 r=1 성능을 완전히 설명하지는 못함 - 이론은 r → ∞ 일 때의 수렴률(O(1/r))을 다루고 있으나, 실험에서는 r=1에서도 매우 잘 동작합니다. - 결론에서 “r=1에서의 성공을 설명하는 더 깊은 이론 분석이 필요하다”고 명시합니다.arXiv^[59]
ES 기반 최적화의 샘플 효율성 문제 - 논문은 throughput와 wall-clock을 강조하지만, gradient-based 방법 대비 환경 상호작용 수(또는 데이터 사용량)가 얼마나 효율적인지는 상대적으로 덜 논의됩니다. (Appendix에서 일부 데이터 효율성 ablation이 있긴 하지만, SOTA gradient 방법과 장기적 비교는 제한적.)
실험 도메인의 폭과 범용 최적화로서의 검증 - RL/LLM/언어모델이라는 세 영역에서는 설득력 있는 결과를 보여주지만, - “일반적인 blackbox 최적화”의 매우 다양한 도메인(e.g., 구조 최적화, 그래프, symbolic program 등)에 대한 검증은 향후 과제로 남습니다. (논문도 future work에서 neurosymbolic 시스템, end-to-end 구성 등 더 복잡한 시스템을 제안).arXiv^[60]
실제 대규모 클러스터·서비스 환경에서의 통합 - 논문은 GH200/H100, A100 등 하드웨어에서의 throughput을 보여주지만, - 실제 프로덕션 트레이닝 스택(예: 거대 모듈식 모델, mixture-of-experts, 거대한 데이터 파이프라인 등)에 EGGROLL을 통합하는 세부적인 이슈(에러 복원, elastic training, fair scheduling 등)는 다루지 않습니다.

논문이 명시적으로 쓰지는 않았지만, 합리적인 추가 해석으로는:

RLHF 파이프라인 전체를 ES 기반으로 대체할 수 있는가? - 이 논문은 reasoning 태스크에 한정해 GRPO와 비교하지만, 실제 RLHF는 preference modeling, reward modeling, DPO/SFT 등 복잡한 단계가 있습니다. 이들을 전부 ES 기반으로 바꾸려면 추가 설계가 필요합니다.
저랭크 구조의 한계 - 현재 설정에서는 population×rank가 충분히 커서 업데이트가 사실상 풀랭크가 되지만, 더 극단적인 저랭크(작은 population, 작은 r) 환경에서 학습 안정성·표현력이 어디까지 유지되는지는 별도의 분석이 있을 수 있습니다.

4. 핵심 개념·용어·수식에 대한 한국어 풀이 edit

1) 진화 전략 (Evolution Strategies, ES) edit

논문에서의 역할: gradient 없이 모델 파라미터 공간을 직접 탐색하는 기본 최적화 프레임워크.
쉽게 풀어 쓴 설명: - “모델 파라미터를 유전자라고 생각하고, 여러 개체(모델 복제본)에 랜덤 돌연변이(노이즈)를 넣어서 성능을 평가한 뒤, 잘 된 방향으로 전체 유전자를 조금씩 옮기는 방법”입니다. - gradient를 쓰지 않고도 최적화가 가능해서, 비미분 가능·노이즈 많은 환경에서도 사용할 수 있습니다.arXiv^[61]
간단한 예시: - 강화학습에서 정책 네트워크의 weight에 가우시안 노이즈를 뿌린 100개의 agent를 돌려 보고, return이 높은 쪽으로 weight를 업데이트하는 식.

2) 저랭크 행렬 근사 (Low-rank matrix approximation, LoRA 스타일) edit

논문에서의 역할: 거대 파라미터 행렬 및 노이즈를 효율적으로 표현하기 위한 핵심 아이디어.
쉽게 풀어 쓴 설명: - 큰 행렬 WWW를 직접 다루지 않고, W≈W0+AB⊤W \approx W_0 + AB^\topW≈W0+AB⊤ 같이, ‘얇은’ 두 행렬 A,BA,BA,B의 곱으로 추가 변화를 표현하는 방식입니다. - AAA 크기 m×rm \times rm×r, BBB 크기 n×rn \times rn×r 이면, 저장해야 할 값은 r(m+n)r(m+n)r(m+n)개라서, 원래 mnmnmn개보다 훨씬 적습니다.arXiv^[62]
간단한 예시: - 4096×4096 행렬을 직접 저장하면 약 1,600만개 파라미터지만, r=8이면 4096×8×2≈6.5만4096×8×2 ≈ 6.5만4096×8×2≈6.5만 으로 250배 이상 절약.

3) EGGROLL (Evolution Guided General Optimization via Low-rank Learning) edit

논문에서의 역할: 저자들이 제안하는 주 알고리즘. 저랭크 ES를 실제 초대형 모델에 적용하기 위한 설계·시스템 패키지.
쉽게 풀어 쓴 설명: - ES에서 노이즈 행렬을 “LoRA 어댑터처럼 저랭크로 만들어서” 쓰고, - 여러 개체(population)를 한 번의 forward 패스에서 모두 평가하도록 batched 연산을 설계한 알고리즘입니다. - 이름대로 “진화가 안내하는 일반적인 최적화(Evolution Guided General Optimization)”를 목표로, gradient 없는 LLM, RL, integer-only RNN까지 한꺼번에 다루려는 시도입니다.arXiv^[63]
간단한 예시: - 거대한 LLM을 EGGROLL로 튜닝할 때, 각 worker는 “저랭크 A,B 노이즈”만 다르고, base 모델은 완전히 공유합니다. 이들을 합쳐서 한 번에 출력까지 계산하고, 성능에 따라 A,B 방향을 평균내어 업데이트합니다.

4) 행렬 가우시안 분포 (Matrix Gaussian distribution, edit

𝑁 ( 𝑀 , 𝑈 , 𝑉 ) N(M,U,V))

논문에서의 역할: ES를 "행렬" 공간에서 수식으로 다루기 위해 사용하는 확률 분포.
쉽게 풀어 쓴 설명: - 보통 가우시안은 벡터에 대해 정의되지만, 여기서는 행렬 자체를 랜덤 변수로 보고, - 행과 열 방향의 공분산을 분리해 X∼N(M,U,V)X \sim \mathcal{N}(M, U, V)X∼N(M,U,V)라고 씁니다. - 이 구조로 ES objective를 깔끔하게 표현하고, gradient를 score function 형태로 유도할 수 있습니다.arXiv^[64]
간단한 예시: - m×nm \times nm×n weight matrix에 노이즈를 넣을 때, 각 행과 열의 상관관계를 따로 제어할 수 있는 가우시안.

5) 저랭크 ES gradient와 O(1/r) 수렴률 edit

논문에서의 역할: EGGROLL의 이론적 신뢰성을 보장하는 핵심 수식.
쉽게 풀어 쓴 설명: - 풀랭크 ES gradient gTrueg_\text{True}gTrue와, 저랭크 근사 gradient g^rLR\hat{g}^{LR}_rg^rLR 사이의 차이를 측정했을 때, - 랭크 r을 늘리면 그 차이가 1/r에 비례해서 줄어든다는 의미입니다. - 보통 r개의 독립 노이즈를 평균하면 오차가 1/√r로 줄어드는 것이 일반적인 CLT인데, 여기서는 대칭 분포 덕분에 더 빠른 1/r까지 나온다는 게 포인트입니다.arXiv^[65]
간단한 예시: - r=1일 때도 어느 정도 근사, r=10이면 거의 풀랭크와 구분 안 될 만큼 gradient가 비슷해진다는 그림 3의 시각화.

6) EGG (Evolved Generative GRU) edit

논문에서의 역할: EGGROLL이 “정말 특이한, 순수 정수 비선형 RNN”도 학습할 수 있음을 보여주는 데 사용된 언어모델.arXiv^[66]
쉽게 풀어 쓴 설명: - GRU 계열 RNN인데, 모든 weight·activation이 int8/int32이고, ReLU나 tanh 같은 activation도 다 제거한 구조입니다. - 비선형성은 int8의 포화(addition 시 오버플로우를 클리핑)에서만 나옵니다. - gradient로 학습하기엔 까다롭지만, ES는 “블랙박스 함수”로 보고 그대로 최적화할 수 있습니다.
간단한 예시: - 하드웨어 제작사가 “오직 정수 연산만 가능한 초저전력 칩”을 설계했다고 할 때, EGG같은 모델은 해당 환경에 맞춰진 언어모델 후보가 됩니다.

7) Population size와 병렬화 edit

논문에서의 역할: EGGROLL의 가장 큰 강점 중 하나. throughput 향상의 핵심 원리.
쉽게 풀어 쓴 설명: - ES의 개체 수(population N)를 늘리면 탐색 품질이 좋아지지만, naive ES에서는 N배 메모리, N배 연산이 들었습니다. - EGGROLL은 저랭크 노이즈와 batched matmul을 사용해, population을 늘려도 추가 오버헤드가 ‘선형 + 랭크·입출력 차원 비례’ 정도로 제한됩니다. - 그래서 262k라는 엄청난 population도 단일 GPU에서 가능하다고 강조합니다.arXiv^[67]

5. 요약 내용에 대한 자체 검증 (1–2줄) edit

위 요약은 EGGROLL의 핵심 아이디어(저랭크 ES + 하드웨어 친화 구현), 이론적 결과(O(1/r) 수렴률), 그리고 세 가지 주요 실험(정수 RNN 프리트레이닝, RL, LLM reasoning 파인튜닝) 의 설정과 결과를 모두 포함하도록 구성했습니다.
부록의 세부적인 증명과 하이퍼파라미터 테이블 전체는 다루지 않았으나, 논문의 전체 흐름·기여·한계를 이해하는 데 필요한 수준까지는 원문 내용을 충실히 반영했다고 판단합니다.

References edit

↑ "Evolution strategies 개선". ChatGPT. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.
↑ "arXiv". arxiv.org. Retrieved 2025-11-26.

[1] "Evolution strategies 개선". ChatGPT. Retrieved 2025-11-26.

[2] "arXiv". arxiv.org. Retrieved 2025-11-26.

[3] "arXiv". arxiv.org. Retrieved 2025-11-26.

[4] "arXiv". arxiv.org. Retrieved 2025-11-26.

[5] "arXiv". arxiv.org. Retrieved 2025-11-26.

[6] "arXiv". arxiv.org. Retrieved 2025-11-26.

[7] "arXiv". arxiv.org. Retrieved 2025-11-26.

[8] "arXiv". arxiv.org. Retrieved 2025-11-26.

[9] "arXiv". arxiv.org. Retrieved 2025-11-26.

[10] "arXiv". arxiv.org. Retrieved 2025-11-26.

[11] "arXiv". arxiv.org. Retrieved 2025-11-26.

[12] "arXiv". arxiv.org. Retrieved 2025-11-26.

[13] "arXiv". arxiv.org. Retrieved 2025-11-26.

[14] "arXiv". arxiv.org. Retrieved 2025-11-26.

[15] "arXiv". arxiv.org. Retrieved 2025-11-26.

[16] "arXiv". arxiv.org. Retrieved 2025-11-26.

[17] "arXiv". arxiv.org. Retrieved 2025-11-26.

[18] "arXiv". arxiv.org. Retrieved 2025-11-26.

[19] "arXiv". arxiv.org. Retrieved 2025-11-26.

[20] "arXiv". arxiv.org. Retrieved 2025-11-26.

[21] "arXiv". arxiv.org. Retrieved 2025-11-26.

[22] "arXiv". arxiv.org. Retrieved 2025-11-26.

[23] "arXiv". arxiv.org. Retrieved 2025-11-26.

[24] "arXiv". arxiv.org. Retrieved 2025-11-26.

[25] "arXiv". arxiv.org. Retrieved 2025-11-26.

[26] "arXiv". arxiv.org. Retrieved 2025-11-26.

[27] "arXiv". arxiv.org. Retrieved 2025-11-26.

[28] "arXiv". arxiv.org. Retrieved 2025-11-26.

[29] "arXiv". arxiv.org. Retrieved 2025-11-26.

[30] "arXiv". arxiv.org. Retrieved 2025-11-26.

[31] "arXiv". arxiv.org. Retrieved 2025-11-26.

[32] "arXiv". arxiv.org. Retrieved 2025-11-26.

[33] "arXiv". arxiv.org. Retrieved 2025-11-26.

[34] "arXiv". arxiv.org. Retrieved 2025-11-26.

[35] "arXiv". arxiv.org. Retrieved 2025-11-26.

[36] "arXiv". arxiv.org. Retrieved 2025-11-26.

[37] "arXiv". arxiv.org. Retrieved 2025-11-26.

[38] "arXiv". arxiv.org. Retrieved 2025-11-26.

[39] "arXiv". arxiv.org. Retrieved 2025-11-26.

[40] "arXiv". arxiv.org. Retrieved 2025-11-26.

[41] "arXiv". arxiv.org. Retrieved 2025-11-26.

[42] "arXiv". arxiv.org. Retrieved 2025-11-26.

[43] "arXiv". arxiv.org. Retrieved 2025-11-26.

[44] "arXiv". arxiv.org. Retrieved 2025-11-26.

[45] "arXiv". arxiv.org. Retrieved 2025-11-26.

[46] "arXiv". arxiv.org. Retrieved 2025-11-26.

[47] "arXiv". arxiv.org. Retrieved 2025-11-26.

[48] "arXiv". arxiv.org. Retrieved 2025-11-26.

[49] "arXiv". arxiv.org. Retrieved 2025-11-26.

[50] "arXiv". arxiv.org. Retrieved 2025-11-26.

[51] "arXiv". arxiv.org. Retrieved 2025-11-26.

[52] "arXiv". arxiv.org. Retrieved 2025-11-26.

[53] "arXiv". arxiv.org. Retrieved 2025-11-26.

[54] "arXiv". arxiv.org. Retrieved 2025-11-26.

[55] "arXiv". arxiv.org. Retrieved 2025-11-26.

[56] "arXiv". arxiv.org. Retrieved 2025-11-26.

[57] "arXiv". arxiv.org. Retrieved 2025-11-26.

[58] "arXiv". arxiv.org. Retrieved 2025-11-26.

[59] "arXiv". arxiv.org. Retrieved 2025-11-26.

[60] "arXiv". arxiv.org. Retrieved 2025-11-26.

[61] "arXiv". arxiv.org. Retrieved 2025-11-26.

[62] "arXiv". arxiv.org. Retrieved 2025-11-26.

[63] "arXiv". arxiv.org. Retrieved 2025-11-26.

[64] "arXiv". arxiv.org. Retrieved 2025-11-26.

[65] "arXiv". arxiv.org. Retrieved 2025-11-26.

[66] "arXiv". arxiv.org. Retrieved 2025-11-26.

[67] "arXiv". arxiv.org. Retrieved 2025-11-26.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]