반응형

SGD 2

[최적화] (3) 모멘텀과 SGD / Momentum 수학적 정의 / Adagrad와 차이

모멘텀(Momentum) ?확률적 경사 하강법(SGD, Stochastic Gradient Descent)에 가속도 항을 추가하여 기울기의 관성 효과를 반영하는 최적화 기법.SGD의 단점을 보완하고 더 빠르고 안정적으로 최적점에 도달할 수 있게 한다.모멘텀의 원리이전 단계의 기울기 업데이트를 일정 부분 기억하여 현재 단계의 업데이트에 반영하는 것.이를 통해 최적화 과정에서 기울기의 변동을 완화하고 더 빠르게 수렴할 수 있다.모멘텀은 물리학에서의 운동량과 유사한 개념으로, 관성을 활용하여 최적화 경로를 더 부드럽고 효율적으로 만들어준다.수학적 정의모멘텀을 적용한 SGD의 업데이트 방식 :모멘텀 항 업데이트 : v_t : 현재 모멘텀 값gamma : 모멘텀 계수, 일반적으로 0.9 정도로 설정η : 학습률∇..

AI/최적화 2024.07.01

[이론헷갈리지마] (1)경사하강법, 확률적 경사하강법 SGD stochastic Gradient discent

헷갈렸던 내용 정리 경사하강법, 확률적 경사하강법1. 확률적 경사하강법은 모든 데이터를 사용해서 업데이트 한다. → Nono2. 전체 데이터  (X, y)(X,y) 를 쓰지 않고 미니배치  (X \textstyle _( \textstyle _b \textstyle _), y \textstyle _( \textstyle _b \textstyle _))(X(b),y(b)) 를 써서 업데이트 하므로 연산량이  \frac bnn**b 로 감소한다. (단,  nn 은 자연수)3. 딥러닝의 경우 확률적 경사하강법이 경사하강법보다 실증적으로 더 낫다고 검증되었다.4. 확률적 경사하강법은 데이터의 일부를 가지고 파라미터를 업데이트하기 때문에 연산자원을 좀 더 효율적으로 활용하는데 도움이 된다.5. 확률적 경사하강법은 ..

반응형