AI/최적화

[최적화] (4) RMSProp (Root Mean Square Propagation)

도도걸만단 2024. 7. 2. 00:33
반응형

RMSProp (Root Mean Square Propagation)

딥러닝 모델에서 경사하강법의 변형으로, 학습률을 자동으로 조정하여 빠르고 안정적인 수렴을 도모하는 최적화 알고리즘으로, RMSProp는 Adagrad의 단점을 보완한다.

RMSProp 배경, Adagrad 한계

Adagrad는 각 파라미터에 대해 학습률을 조정하여 희소한 특징을 가진 데이터셋에서 잘 작동한다.

그러나 모든 기울기 제곱을 누적하기 때문에 학습이 진행될수록 학습률이 지나치게 작아져 0에 가까워지고 학습이 멈출 수 있다.

→ RMSProp : 기울기의 제곱 누적합을 지수 이동 평균으로 대체

RMSProp 원리

1. 기울기 제곱의 지수 이동 평균 계산:

E[g^2]t=βE[g2]t−1+(1−β)(gt2)

  • E[g^2]_t : 시간 t에서 기울기 제곱의 지수 이동 평균
  • β는 감쇠율(Decay Rate), 일반적으로 0.9로 설정
  • g_t : 현재 시점 t에서의 기울기

2. 파라미터 업데이트:

  • η : 학습률
  • ϵ : 수치적 안정성을 위한 작은 상수, 일반적으로 1e−8 사용, 0이 되는것을 막기 위해 사용


주요 특징

  1. RMSProp는 기울기 제곱의 지수 이동 평균을 사용하여 학습률을 조정하므로, 자주 발생하는 기울기 변동을 평활화하고 안정적인 학습을 도모한다
  2. 학습률이 지나치게 작아지지 않고 적절한 값을 유지한다. 이는 Adagrad의 단점을 보완

->

RMSProp는 Adagrad의 단점을 보완하여,

기울기 제곱의 지수 이동 평균을 사용하여 학습률을 조정함으로써, 기울기 변동에 민감하게 반응하고 수렴 속도를 높이는 데 효과적이다.


RMSprop (모멘텀 + Adagrad의 아이디어)

RMSprop은 Adagrad의 기울기 제곱 누적합 대신 지수 이동 평균을 사용하여 학습률이 너무 작아지지 않도록 한다.

Adam (모멘텀 + Adagrad + RMSprop)

Adam은 모멘텀과 RMSprop의 아이디어를 결합하여 적응형 학습률과 모멘텀을 동시에 사용한다.

 

 

 


 

다른 게시물 참고 바람

https://minsunstudio.tistory.com/37

 

[최적화] 모멘텀과 SGD / Momentum 수학적 정의 / Adagrad와 차이

모멘텀(Momentum) ?확률적 경사 하강법(SGD, Stochastic Gradient Descent)에 가속도 항을 추가하여 기울기의 관성 효과를 반영하는 최적화 기법.SGD의 단점을 보완하고 더 빠르고 안정적으로 최적점에 도달

minsunstudio.tistory.com

 

https://minsunstudio.tistory.com/36

 

[최적화] 경사하강법과 Adagrad / Adaptive Gradient Algorithm

경사하강법(Gradient Descent) :손실 함수의 기울기(gradient)를 사용하여 모델의 가중치를 업데이트하는 최적화 알고리즘가중치가 손실 함수의 값을 최소화하는 방향으로 이동시키는 것기울기 계산 (G

minsunstudio.tistory.com

https://minsunstudio.tistory.com/33

 

[이론헷갈리지마] 경사하강법, 확률적 경사하강법 SGD stochastic Gradient discent

헷갈렸던 내용 정리 경사하강법, 확률적 경사하강법1. 확률적 경사하강법은 모든 데이터를 사용해서 업데이트 한다. → Nono2. 전체 데이터  (X, y)(X,y) 를 쓰지 않고 미니배치  (X \textstyle _( \text

minsunstudio.tistory.com

 

반응형