반응형

경사하강법 2

[최적화] (2)경사하강법과 Adagrad / Adaptive Gradient Algorithm

경사하강법(Gradient Descent) :손실 함수의 기울기(gradient)를 사용하여 모델의 가중치를 업데이트하는 최적화 알고리즘가중치가 손실 함수의 값을 최소화하는 방향으로 이동시키는 것기울기 계산 (Gradient Calculation): 손실 함수 L(θ)의 현재 가중치 θ에 대한 기울기 ∇L(θ)를 계산가중치 업데이트 (Weight Update): 기울기에 학습률(learning rate) η을 곱한 값을 현재 가중치에서 뺀다.θ←θ−η∇L(θ)업데이트된 가중치를 사용하여 다시 손실 함수의 기울기를 계산, 이 과정을 반복. 모델의 가중치는 점차 손실 함수를 최소화하는 방향으로 조정됨.학습률이 너무 크면 최적점에 도달하지 못하고 발산/진동 할 수 있으며, 너무 작으면 수렴 속도가 느려질 수 ..

AI/최적화 2024.07.01

[이론헷갈리지마] (1)경사하강법, 확률적 경사하강법 SGD stochastic Gradient discent

헷갈렸던 내용 정리 경사하강법, 확률적 경사하강법1. 확률적 경사하강법은 모든 데이터를 사용해서 업데이트 한다. → Nono2. 전체 데이터  (X, y)(X,y) 를 쓰지 않고 미니배치  (X \textstyle _( \textstyle _b \textstyle _), y \textstyle _( \textstyle _b \textstyle _))(X(b),y(b)) 를 써서 업데이트 하므로 연산량이  \frac bnn**b 로 감소한다. (단,  nn 은 자연수)3. 딥러닝의 경우 확률적 경사하강법이 경사하강법보다 실증적으로 더 낫다고 검증되었다.4. 확률적 경사하강법은 데이터의 일부를 가지고 파라미터를 업데이트하기 때문에 연산자원을 좀 더 효율적으로 활용하는데 도움이 된다.5. 확률적 경사하강법은 ..

반응형