각 입력을 받아서 그 입력을 [0,1] 사이의 값이 되도록 함 → 입력의 값이 크면 Sigmoid 출력은 1에 가까움, 값이 작으면 0에 가까움
Sigmoid의 문제
X = -10 이면(작은 음수) gradient는 0, X = 0이면 잘 동작, X = 10(큰 양수)이면 gradient는 0인 문제 존재
Sigmoid의 출력이 zero centered 하지 않음 → W가 모두 같은 방향으로만 움직일 것 (파라미터 업데이트 시 다 같이 증가하거나 다 같이 감소할 수 밖에 없음) → 이런 gradient 업데이트는 비효율적(위의 그림에서 파란색 화살표 방향(최적의 방법)으로 gradient 업데이트 불가, 빨간 화살표 방향처럼 반복해야 함) ⇒ Zero mean data를 원하는 이유
exp() 로 인해 계산 비용이 크다
tanh
sigmoid랑 유사하지만 범위가 [-1, 1] ⇒ Zero centered (Sigmoid의 2번째 문제 해결 가능)
Saturation 때문에 여전히 gradient가 죽는 문제 발생 (Sigmoid의 1번째 문제와 동일)
ReLU (Rectified Linear Unit)
$f(x) = \max (0,x)$ ⇒ 입력이 음수이면 값이 0, 양수면 입력 값 그대로 출력