
⇒ 소 두 마리 구별 불가 (Semantic Segmentation 의 단점)
: 입력 이미지를 아주 작은 단위로 쪼갬 → 작은 영역만을 가지고 Classification 문제를 푼다고 생각 → 이미지 한 장을 분류하기 위해 만든 모델을 이용해서 이미지의 작은 영역을 분류하게 할 수 있음(좋은 방법은 아님. 비용이 크기 때문)


: FC-Layer가 없고 Convolution Layer로만 구성된 네트워크에서 3x3 Zero padding을 수행하는 Conv Layer 들을 쌓아 올리면 이미지의 공간 정보 손실X → 이 네트워크의 출력 Tensor는 CxHxW (C : 카테고리의 수), 즉 입력 이미지의 모든 픽셀 값에 대해 Classification Score를 매긴 값
⇒ 이 네트워크를 학습 시키려면 모든 픽셀의 Classification loss를 계산하고 평균 값을 취함 → 기존처럼 Back propagation을 수행
⇒ 하이퍼 파라미터를 조절해서 학습을 시켜주면 잘 동작하지만 문제 존재 → 입력 이미지의 Spatial size를 계속 유지해야 하기 때문에 비용이 큼

: Spatial resolution 전체를 가지고 Convolution을 수행하기 보다는 Original Resolution에서는 Conv layer는 소량만 사용 → Max pooling, Stride Convolution 등으로 feature map을 downsample 하는 과정을 반복 → 다시 Spatial Resolution을 키워 다시 입력 이미지의 해상도와 같아짐
