Summary

YOLO : You Only Look Once. 이미지를 전체적으로 한 번에 훑어보고 detection 한다고 해서 저자들이 붙이게 되었습니다.
2015년 시점으로 가장 뛰어난 성능과 속도를 보여준 Image Detection 방법입니다. ( R-CNN, DPM )
빠르고 Robust 한 모델이어서 다양한 어플에 적용이 가능합니다.
다른 모델에 비해 훈련에서 없었던 이미지들도 잘 파악하고 검출합니다.
아직까지도 연구되어지는 검출 방법입니다. ( YOLO v5 )

Abatract

연구진들은 Image Detection을 기존에 사용되던 Classifier 기반의 방법에서 regression 방법으로 재정의하였습니다. 이를 통해 bounding box & class probabilities 를 동시에 계산할 수 있게 되었습니다. 또한 이는 하나의 연산망에 의해 계산됩니다. ( 다른 모델이 여러 개의 연산망을 이어 붙인 것과 차이를 보입니다 )

YOLO는 매우 빠릅니다. ( 2015 년 기준. 2021년 기준으로도 계속해서 업데이트 되어 좋은 성능을 보임 )
객체 검출 파이프라인이 하나의 신경망으로 구성되어 있습니다. ⇒ end-to-end 형식입니다.

[DL] End-to-End Deep Learning 이란?

YOLO는 물체의 일반적인 특성을 학습합니다.

Introduction

사람의 시각체계가 매우 빠르고 정교하기 때문에 복합적인 일을 할 수 있다고 합니다. 이를 기반으로 이미지 검출이 가능하다면 자율주행과 같은 역할을 수행할 수 있다고 합니다. 기존에 사용되던 이미지 검출 모델들은 Classifier 를 재정의 하여 시험 이미지의 위치와 크기를 Detection 합니다.

이러한 방법의 대표로는 R-CNN, DPM 등이 있습니다. ( 해당 논문에서는 이 두 방법을 계속해서 YOLO와 비교합니다 ) DPM 방법은 이미지 전체에서 슬라이딩 윈도우를 사용하여 객체를 검출합니다. R-CNN 방법은 이미지 안에서 Potential bounding box를 만들고 여기에 classfier 를 돌려 객체를 검출합니다. 이러한 방법들은 파이프 라인을 복잡하게 만들고 최적화가 어렵고 느립게 되도록 방해합니다.

따라서 연구진들은 이러한 방법을 개선하여 객체 검출을 Regression(연속변수..?)을 통해 해결하였습니다.

우선 YOLO의 이름을 살펴보자면 아래와 같습니다. 번역하면 이미지를 한 번 보면 검출할 수 있다고 합니다.

<aside> ❗ Using our system, you only look once (YOLO) at an image to predict what objects are present and where they are

</aside>