논문을 보다가 Ranger optimizer라는 것을 봤다. 여러 최적화 기법들을 봤는데 Ranger는 처음보는 것 같아 기록을 남겨본다. Ranger는 Radam + Lookahead 이다. Radam - Rectified Adam이라서 RAdam이다. - Adam : adaptive learning rate를 기반으로 하고, 상대적인 업데이트 양에 따라 step size를 조정해줌. -adaptive learning 의 경우 bad local optima convergence problem에 빠질 수 있다. 학습 초기에 샘플이 부족할 경우, learning rate의 분산이 커지고, 이에따라 최적이 아닌 local optima에 너무 일찍 도달하여 학습이 거의 일어나지 않는 현상이다. - 이를 해결하..