How Transferable are features in Deep Neural Network

Summary

기존에 훈련을 진행한 모델을 이용하여 새로운 모델에 적용 시키는 방법에 대한 논문입니다.
모델을 전체적으로 두고 보았을 때 어느 특정 Layer에서 전이 학습을 진행하면 좋을 지에 대해 실험적으로 증명하였습니다.
학습된 가중치를 새로 훈련을 진행하는 모델의 초기 값으로 설정 후 연관성이 있는 데이터 셋의 훈련을 진행할 시, 모델의 일반화 성능을 높일 수 있는 것을 확인하였습니다. ( 랜덤 vs 훈련 초깃값 )

Introduction

Untitled

서로 다른 데이터 셋을 사용하고 다른 목적으로 학습하였음에도, 이미지 기반 딥러닝 모델의 1번째 레이어의 feature 가 모두 유사한 형태(Gabor + color blobs)로 학습되는 현상을 볼 수 있습니다. 이러한 1번째 레이어의 feature 를 general 하다고 표현합니다.

반면, 마지막 레이어의 feature 는 서로 다른 모델에서 굉장히 다른 양상을 보입니다. 이를 specific 하다고 표현합니다.

논문은 딥러닝 모델 내부에서 general 한 feature 를 특정하여, 전이 학습에 사용할 수 있는 방법을 제시합니다

이렇게 딥러닝 모델을 구성하는 레이어에는 general/specific feature 가 혼합되어 있습니다. 논문은 여기서 다음과 같은 질문을 제시합니다.

특정한 layer 의 feature 가 general / specific 한 정도를 측정할 수 있을까?
general 에서 specific 한 feature 로의 변화는 단일 layer 에서 발생할까? 혹은 넓은 layer 에 걸쳐서 일어날까?
general 에서 specific 한 feature 로의 변화는 모델의 어느 지점에서 일어날까?

논문은 모델에서 general 한 feature 를 특정하여 전이 학습(transfer learning) 에 사용할 수 있는 방법을 제시합니다.

전이 학습(transfer learning)은 base 데이터셋과 과제로 학습한 base 네트워크의 feature 를 다른 데이터셋과 과제를 수행해야하는 target 네트워크에 전이하여 사용하는 학습 방법입니다.

이를 통해 작은 크기의 dataset 에도 과적합없이 훈련을 수행할 수 있습니다.

대부분의 전이 학습은 base 네트워크를 훈련한 뒤 첫번째부터 n 개의 레이어를 복사해 target 네트워크에 붙여넣습니다. target 네트워크의 나머지 layer들은 랜덤하게 초기화하고 target task 를 사용하려 훈련을 진행합니다.