[Lecture 11] Detection and Segmentation

Semantic Segmentation

입력은 이미지, 출력은 이미지의 모든 픽셀에 대한 카테고리
Classification 처럼 이미지 전체에 하나의 카테고리가 아닌 모든 픽셀에 카테고리가 정해짐
개별 객체를 구분하지 않음

Untitled

⇒ 소 두 마리 구별 불가 (Semantic Segmentation 의 단점)

Idea1. Sliding Window

: 입력 이미지를 아주 작은 단위로 쪼갬 → 작은 영역만을 가지고 Classification 문제를 푼다고 생각 → 이미지 한 장을 분류하기 위해 만든 모델을 이용해서 이미지의 작은 영역을 분류하게 할 수 있음(좋은 방법은 아님. 비용이 크기 때문)

Untitled

Idea2. Fully Convolution Network

Untitled

: FC-Layer가 없고 Convolution Layer로만 구성된 네트워크에서 3x3 Zero padding을 수행하는 Conv Layer 들을 쌓아 올리면 이미지의 공간 정보 손실X → 이 네트워크의 출력 Tensor는 CxHxW (C : 카테고리의 수), 즉 입력 이미지의 모든 픽셀 값에 대해 Classification Score를 매긴 값

⇒ 이 네트워크를 학습 시키려면 모든 픽셀의 Classification loss를 계산하고 평균 값을 취함 → 기존처럼 Back propagation을 수행

⇒ 하이퍼 파라미터를 조절해서 학습을 시켜주면 잘 동작하지만 문제 존재 → 입력 이미지의 Spatial size를 계속 유지해야 하기 때문에 비용이 큼

Untitled

: Spatial resolution 전체를 가지고 Convolution을 수행하기 보다는 Original Resolution에서는 Conv layer는 소량만 사용 → Max pooling, Stride Convolution 등으로 feature map을 downsample 하는 과정을 반복 → 다시 Spatial Resolution을 키워 다시 입력 이미지의 해상도와 같아짐

Upsampling 의 방법 1 : Unpooling

Untitled