[Lecture 7] Training Neural Networks, part 2 | Notion

Optimization

: 가장 낮은 Loss를 가진 가중치를 찾는 과정

Stochastic Gradient Descent

가장 간단한 최적화 알고리즘
미니 배치 안의 데이터에서 Loss를 계산 → Gradient의 반대 방향을 이용해서 파라미터 벡터를 업데이트 → 이 단계를 계속 반복하면 Loss가 낮은 쪽으로 수렴
문제점 존재
- W1과 W2가 있을 때, 둘 중 하나는 업데이트를 해도 손실 함수가 아주 느리게 변함 ⇒ gradient의 방향이 고르지 못해서 업데이트가 아주 느리게 진행
- Local minima & saddle point (어떤 방향은 Loss가 증가하고 어떤 방향은 Loss가 감소하고 있는 곳)
⇒ gradient가 0인 곳에서 SGD는 멈춰버림
- Loss를 계산할 때 마다 매번 Training set 의 전부를 계산하는 것은 어려움 ⇒ 미니 배치의 데이터들만 가지고 실제 Loss를 추정 (정확한 gradient를 알 수 없다는 뜻)

SGD + Momentum

SGD에 momentum term을 추가하여 위의 문제 해결 가능

⇒ gradient를 계산할 때 velocity를 이용 / $\rho$ : momentum의 비율

Nesterov Momentum

우선 velocity 방향으로 움직인 후, 그 지점에서의 gradient를 계산. 그 후 원점으로 돌아가서 둘을 합침

Untitled

Velocity의 방향이 잘못되었을 경우에 현재 gradient의 방향을 좀 더 활용할 수 있도록 해줌
Convex optimization에서는 뛰어난 성능을 보이지만, NN과 같은 non-convex problem에서는 성능 보장 X

Untitled

AdaGrad

훈련 도중 계산되는 gradient를 활용