Summary

Abatract

연구진들은 Image Detection을 기존에 사용되던 Classifier 기반의 방법에서 regression 방법으로 재정의하였습니다. 이를 통해 bounding box & class probabilities 를 동시에 계산할 수 있게 되었습니다. 또한 이는 하나의 연산망에 의해 계산됩니다. ( 다른 모델이 여러 개의 연산망을 이어 붙인 것과 차이를 보입니다 )

[DL] End-to-End Deep Learning 이란?

Introduction

사람의 시각체계가 매우 빠르고 정교하기 때문에 복합적인 일을 할 수 있다고 합니다. 이를 기반으로 이미지 검출이 가능하다면 자율주행과 같은 역할을 수행할 수 있다고 합니다. 기존에 사용되던 이미지 검출 모델들은 Classifier 를 재정의 하여 시험 이미지의 위치와 크기를 Detection 합니다.

이러한 방법의 대표로는 R-CNN, DPM 등이 있습니다. ( 해당 논문에서는 이 두 방법을 계속해서 YOLO와 비교합니다 ) DPM 방법은 이미지 전체에서 슬라이딩 윈도우를 사용하여 객체를 검출합니다. R-CNN 방법은 이미지 안에서 Potential bounding box를 만들고 여기에 classfier 를 돌려 객체를 검출합니다. 이러한 방법들은 파이프 라인을 복잡하게 만들고 최적화가 어렵고 느립게 되도록 방해합니다.

따라서 연구진들은 이러한 방법을 개선하여 객체 검출을 Regression(연속변수..?)을 통해 해결하였습니다.

우선 YOLO의 이름을 살펴보자면 아래와 같습니다. 번역하면 이미지를 한 번 보면 검출할 수 있다고 합니다.

<aside> ❗ Using our system, you only look once (YOLO) at an image to predict what objects are present and where they are

</aside>