[Lecture 9] CNN Architectures

LeNet-5

: 산업에 성공적으로 적용된 최초의 ConvNet

이미지를 입력으로 받아서 stride = 1인 5 x 5 필터를 거치고 몇 개의 Conv Layer와 Pooling layer를 거침, 끝 단에 FC Layer가 붙음

AlexNet

: 최초의 Large scale CNN

Untitled

2012년에 등장해서 기존의 non-딥러닝 모델을 능가하는 성능을 보임
Conv - pool - normalization 구조가 두 번 반복, 그리고 Conv layer가 조금 더 붙은 후에 Pooling layer가 붙음, 마지막으로 FC Layer가 붙음
5개의 Conv Layer와 2개의 FC Layer로 구성
입력이 227 x 227 x 3, 첫 레이어에는 11 x 11 필터가 stride =4 로 96개 존재 ⇒ 첫 레이어의 출력은 55 x 55 x 96, 파라미터 수는 96 x 11 x 11 x 3 개 (35K)
두 번째 레이어인 Pooling Layer에는 stride =2 인 3 x 3 필터가 존재 ⇒ 출력은 27 x 27 x 96, 파라미터는 없음(pooling은 가중치가 없고 단지 특정 지역에서 큰 값을 뽑아내는 역할을 함)

Untitled

ReLU, Local response normalization layer(최근엔 사용X), data augumentation(flipping, jittering, color norm 등), Dropout을 사용
학습 시 Batch size 는 128, SGD momentum 사용. 초기 Learning rate는 1e-2, val accuracy가 올라기지 않는 지점에서는 Learning rate를 1e-10까지 줄임, Weight decay를 사용하고 model esemble을 사용

Untitled

⇒ 모델이 두 개로 나뉘어서 교차(당시 GPU 메모리가 3GB이므로 네트워크를 GPU에 분산 시켜서 넣음, 각 GPU가 모델의 뉴런과 feature map을 반 씩 나눠 가짐)

⇒ Conv 1,2,4,5에서는 전체 96 feature map을 볼 수 없음/ Conv 3과 FC 6,7,8은 이전 계층의 전체 Feature map과 연결되어 있음(해당 레이어에서는 GPU 간의 통신을 하기 때문에 이전 입력 레이어의 전체 Depth를 전부 가져옴)