RMSProp (Root Mean Square Propagation)
딥러닝 모델에서 경사하강법의 변형으로, 학습률을 자동으로 조정하여 빠르고 안정적인 수렴을 도모하는 최적화 알고리즘으로, RMSProp는 Adagrad의 단점을 보완한다.
RMSProp 배경, Adagrad 한계
Adagrad는 각 파라미터에 대해 학습률을 조정하여 희소한 특징을 가진 데이터셋에서 잘 작동한다.
그러나 모든 기울기 제곱을 누적하기 때문에 학습이 진행될수록 학습률이 지나치게 작아져 0에 가까워지고 학습이 멈출 수 있다.
→ RMSProp : 기울기의 제곱 누적합을 지수 이동 평균으로 대체
RMSProp 원리
1. 기울기 제곱의 지수 이동 평균 계산:
E[g^2]t=βE[g2]t−1+(1−β)(gt2)
- E[g^2]_t : 시간 t에서 기울기 제곱의 지수 이동 평균
- β는 감쇠율(Decay Rate), 일반적으로 0.9로 설정
- g_t : 현재 시점 t에서의 기울기
2. 파라미터 업데이트:
- η : 학습률
- ϵ : 수치적 안정성을 위한 작은 상수, 일반적으로 1e−8 사용, 0이 되는것을 막기 위해 사용
주요 특징
- RMSProp는 기울기 제곱의 지수 이동 평균을 사용하여 학습률을 조정하므로, 자주 발생하는 기울기 변동을 평활화하고 안정적인 학습을 도모한다
- 학습률이 지나치게 작아지지 않고 적절한 값을 유지한다. 이는 Adagrad의 단점을 보완
->
RMSProp는 Adagrad의 단점을 보완하여,
기울기 제곱의 지수 이동 평균을 사용하여 학습률을 조정함으로써, 기울기 변동에 민감하게 반응하고 수렴 속도를 높이는 데 효과적이다.
RMSprop (모멘텀 + Adagrad의 아이디어)
RMSprop은 Adagrad의 기울기 제곱 누적합 대신 지수 이동 평균을 사용하여 학습률이 너무 작아지지 않도록 한다.
Adam (모멘텀 + Adagrad + RMSprop)
Adam은 모멘텀과 RMSprop의 아이디어를 결합하여 적응형 학습률과 모멘텀을 동시에 사용한다.
다른 게시물 참고 바람
https://minsunstudio.tistory.com/37
[최적화] 모멘텀과 SGD / Momentum 수학적 정의 / Adagrad와 차이
모멘텀(Momentum) ?확률적 경사 하강법(SGD, Stochastic Gradient Descent)에 가속도 항을 추가하여 기울기의 관성 효과를 반영하는 최적화 기법.SGD의 단점을 보완하고 더 빠르고 안정적으로 최적점에 도달
minsunstudio.tistory.com
https://minsunstudio.tistory.com/36
[최적화] 경사하강법과 Adagrad / Adaptive Gradient Algorithm
경사하강법(Gradient Descent) :손실 함수의 기울기(gradient)를 사용하여 모델의 가중치를 업데이트하는 최적화 알고리즘가중치가 손실 함수의 값을 최소화하는 방향으로 이동시키는 것기울기 계산 (G
minsunstudio.tistory.com
https://minsunstudio.tistory.com/33
[이론헷갈리지마] 경사하강법, 확률적 경사하강법 SGD stochastic Gradient discent
헷갈렸던 내용 정리 경사하강법, 확률적 경사하강법1. 확률적 경사하강법은 모든 데이터를 사용해서 업데이트 한다. → Nono2. 전체 데이터 (X, y)(X,y) 를 쓰지 않고 미니배치 (X \textstyle _( \text
minsunstudio.tistory.com
'AI > 최적화' 카테고리의 다른 글
[최적화] (3) 모멘텀과 SGD / Momentum 수학적 정의 / Adagrad와 차이 (2) | 2024.07.01 |
---|---|
[최적화] (2)경사하강법과 Adagrad / Adaptive Gradient Algorithm (0) | 2024.07.01 |