[Lecture 6] Training Neural Networks, Part I

Activation Functions

Untitled

Untitled

$\sigma (x) = \dfrac {1}{1+e^{-x}}$
각 입력을 받아서 그 입력을 [0,1] 사이의 값이 되도록 함 → 입력의 값이 크면 Sigmoid 출력은 1에 가까움, 값이 작으면 0에 가까움
Sigmoid의 문제
1. X = -10 이면(작은 음수) gradient는 0, X = 0이면 잘 동작, X = 10(큰 양수)이면 gradient는 0인 문제 존재
1. Sigmoid의 출력이 zero centered 하지 않음 → W가 모두 같은 방향으로만 움직일 것 (파라미터 업데이트 시 다 같이 증가하거나 다 같이 감소할 수 밖에 없음) → 이런 gradient 업데이트는 비효율적(위의 그림에서 파란색 화살표 방향(최적의 방법)으로 gradient 업데이트 불가, 빨간 화살표 방향처럼 반복해야 함) ⇒ Zero mean data를 원하는 이유
2. exp() 로 인해 계산 비용이 크다

Untitled

Untitled