[Lecture 3] Loss Functions and Optimization

Linear Classifier의 W를 구하기

W를 입력으로 받아서 각 스코어를 확인하고 이 W가 얼마나 정확한지를 정량적으로 말해주는 것이 손실 함수 → 가장 덜 나쁜 W가 무엇인지 구하기 (최적화 과정)

Untitled

손실 함수

트레이닝 데이터 X(알고리즘의 입력, 이미지)와 Y (예측하고자 하는 것, 레이블, 타겟, 정수값, 각 이미지 X의 정답 카테고리)
입력 이미지 X와 행렬 W를 입력으로 받아서 Y를 예측
손실 함수 $L_i$를 정의 ⇒ 예측 함수 f와 정답 값 Y를 입력으로 받아서 트레이닝 샘플을 얼마나 나쁘게 예측하는 지를 정량화
최종 Loss인 L은 데이터 셋에서 각 N개의 샘플들의 Loss의 평균이 됨

EX) Multiclass SVM Loss

Untitled

if : 정답 클래스의 스코어가 제일 높으면 then $max(0,s_j - s_{y_i} + 1)$ $s_{y_i} :$ 실제 정답 클래스의 스코어

⇒ $L_i$를 구하기 위해 “True”인 카테고리를 제외한 나머지 카테고리 Y의 합을 구한다(맞지 않는 카테고리를 전부 합침) → 올바른 카테고리의 스코어와 올바르지 않은 카테고리의 스코어를 비교 → 올바른 카테고리의 점수가 올바르지 않은 카테고리의 점수보다 더 높고 그 격차가 일정 마진 (본 예시에서는 1) 이상이라면 True인 스코어가 다른 False인 카테고리보다 훨씬 더 크다는 의미 → 이렇다면 Loss는 0, 다른 경우에는 정답이 아닌 카테고리의 모든 값을 합치면 그 값이 한 이미지의 최종 Loss가 됨(그리고 전체 트레이닝 데이터 셋에서 그 Loss들의 평균을 구함)

Untitled

⇒ X축은 실제 정답 클래스의 스코어, Y축은 Loss/ 정답 카테고리의 스코어가 올라갈 수록 Loss가 선형적으로 줄어듦 (Loss의 최소값은 0, 최대값은 무한대)

Loss가 0이 되는 W를 선택하는 것은 모순 ⇒ 분류기에게 트레이닝 데이터에 꼭 맞는 W를 찾으라고 하는 것과 같음 ⇒ 테스트 데이터에서의 성능에 관심을 가져야함

Untitled

⇒ 모든 트레이닝 데이터를 완벽하게 분류해내는 곡선 만들어냄 → 새로운 데이터가 들어오면 앞서 만든 곡선이 완전히 틀림