해석

Abstract

우리는 ImageNet ILSVRC-2010 대회의 1000개의 다른 클래스로 이루어진 120만장의 고화질 이미지를 분류하기 위해 크고 깊은 convolution neural network를 학습시켰다. 테스트 데이터에서 우리는 이전 결과보다 뛰어난 37.5%, 17.0%의 오차율을 통해 1등과 5등을 달성하였다. neural network는 6000만개의 파라미터와 650000개의 뉴런, 5개의 convolution layer로 구성되며, 일부는 max-pooling layer, 그리고 1000개의 결과를 추출하는 softmax로 연결된 3개의 fully-connected layer로 구성되었다. 학습을 빠르게 하기 위해, 우리는 발산하는 neuron들과 convolution operation에 매우 효율적인 GPU 를 사용하였다. fully-connected layer의 overfitting을 줄이기 위해 우리는 “Dropout”이라는 최근에 만들어진 규제 방법을 사용하였다. 또한 우리는 ILSVRC-2012 대회에 변형된 모델을 사용하였고 2등의 오차율인 26.2%보다 나은 15.3%의 top-5 테스트 오차율을 달성하였다.

1 Introduction

객체 인식의 최근 접근 방법은 machine learning 방법의 사용이 중요해졌다. 성능을 향상시키기 위해 더 큰 데이터셋을 수집하고, 더 강력한 모델들을 학습시키며, overfitting을 방지하기 위해 더 나은 기술을 사용해야 한다. 이전까진 라벨링된 이미지의 데이터셋은 매우 적었다. 간단한 인식 task는 라벨이 잘 보존된 채로 변형한 augmented로는 해결할 수 있다. 예를 들어 현재 MNIST digit recognition task의 최고 오차율은 사람의 능력과 비슷하다. 하지만 실제 환경에 놓인 물체의 경우, 그 물체를 인식하게 하기 위해 필연적으로 더 큰 training set이 필요하다. 그리고 실제로 작은 이미지 데이터셋의 단점은 다들 알고 있지만, 지금에 와서야 라벨링된 100만장의 이미지 데이터셋을 모으는 것이 가능해진 것이다. 새로운 거대한 데이터셋은 수십만장의 fully-segmented image로 구성된 LabelMe, 1500만장의 라벨링된 고화질의 이미지와 22000개의 카테고리로 구성된 ImageNet이 있다.

수백만 장의 이미지에서 수천개의 물체를 학습하기 위해서는 우리는 큰 학습 능력을 지닌 모델이 필요하다. 그러나 object recognition의 엄청난 복잡성은 커다란 데이터셋인 ImageNet을 통해서도 문제를 지정할 수 없다. 따라서 우리의 모델은 우리가 가지고 있지 않은 데이터를 보상하기 위해 많은 사전 지식이 필요하다. CNN은 그런 종류의 모델을 구성한다. CNN의 용량은 깊이와 폭을 통해 조절할 수 있고, 이미지의 특성 (즉 통계의 고정성 및 픽셀 종속성의 지역성)에 대해 매우 강력하고 대부분 정확한 가정을 한다. 따라서 비슷한 크기의 layer를 갖는 일반적인 feedforward neural network와 비교하면 CNN은 더 적은 연결성과 parameter를 가지고 학습하기 쉬우며, 반면에 이론적인 최고 성능은 약간만 더 나빠질 가능성이 있는 것이다.

CNN의 매력적인 성능과 상대적으로 효과적인 local 구조에도 불구하고, 고화질 이미지에 대용량으로 적용하기에는 아직 비쌌다. 운이 좋게도, 고도로 최적화된 2D convolution 구현과 결합된 현재의 GPU들은 매우 큰 CNN을 학습시키기에 충분히 강력하며, ImageNet과 같은 최근 데이터셋에 대해서도 심각한 overfitting 없이 훈련하기에 충분한 레이블이 지정된 예시가 포함되어있다.

이 논문에서 기여한 것은 다음과 같다 : ILSVRC-2010과 ILSVRC-2012 대회에 사용된 이미지넷의 하위 집합에 대해 현재까지 가장 큰 convolution neural network 를 훈련시켰고, 이 데이터셋에 대해 보고된 것 중에 최고의 결과를 성취하였다. 우리는 2D convolution 과 convolution neural network 훈련에 내재된 다른 모든 연산들을 매우 최적화된 GPU로 구현하여 공개하였다. 우리의 network는 성능을 향상시키고 학습 시간을 줄이기 위해 새롭고 신선한 다양한 특징을 포함시켰다. 우리 network의 size는 120만개의 라벨링된 예시에도 불구하고 심각한 overfitting 문제가 존재했고, 이를 예방하기 위한 다양한 효과적인 기술을 사용하였다. 우리의 final network는 다섯 개의 convolutional layer와 3개의 fully-connected layer로 구성되고, 깊이는 매우 중요하다 : 어떤 하나의 convolutional layer를 없애면 좋지 않은 성능을 보인다.

마지막으로 network의 사이즈는 현재 GPU의 가능한 메모리 양과 우리가 기다릴 수 있는 학습 시간에 의해 제한된다. 우리의 network는 2개의 GTX 580 3GB를 사용하여 학습하는데 5일에서 6일정도 소요된다. 우리의 모든 실험 결과는 더 빠른 GPU를 기다리거나 더 큰 데이터셋이 가능해지면 성능이 향상될 것이라고 제안한다.

2 The Dataset

ImageNet은 대략 22000개의 카테고리로 구성된 1500만개의 라벨링된 고화질 이미지 데이터셋이다. 이미지는 web에서 수집되었고, Amazon의 Mechanical Turk crowd-sourcing tool로 라벨링되었다. Pascal Visual Object Challenge의 일환으로 ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)는 2010년을 시작으로 매년 개최된다. ILSVRC는 ImageNet의 대략 1000개의 카테고리의 각 1000장의 이미지를 사용한다. 총 대략 120만장의 학습 이미지와 50000장의 validation 이미지, 150000장의 테스트 이미지를 사용한다.