: 가장 낮은 Loss를 가진 가중치를 찾는 과정
가장 간단한 최적화 알고리즘
미니 배치 안의 데이터에서 Loss를 계산 → Gradient의 반대 방향을 이용해서 파라미터 벡터를 업데이트 → 이 단계를 계속 반복하면 Loss가 낮은 쪽으로 수렴
문제점 존재


⇒ gradient가 0인 곳에서 SGD는 멈춰버림
SGD에 momentum term을 추가하여 위의 문제 해결 가능

⇒ gradient를 계산할 때 velocity를 이용 / $\rho$ : momentum의 비율

