Computer Vision

[CV] DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

최나무🌈 2025. 4. 23. 22:20

[DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs]라는 제목의 논문을 읽기 시작했다.

 

Abstract

: 1) upsampled filter를 이용한 convolution, astrous convolution이 dense prediction task에서 powerful하다는 점을 보여준다, 2) atrous spatial pyramid pooling (ASPP)를 제안한다, 3) object boundary의 localization을 improve하기 위해서 DCNN과 probabilistic graphical model을 합친다의 세 가지 contribution을 제시한다.

 

Introduction

: deep convolutional neural network의 성공을 local image transformation에 대한 invariance로 설명한다. 1) reduced feature resolution, 2) multiple scale의 object가 존재하는 점, 3) DCNN의 invariance에 따른 reduced localization accuracy의 세 가지를 DCNN을 semantic image segmentation에 적용하는 것의 challenge로 꼽는다. 첫 번째 문제를 해결하기 위해 upsampling을 적용했고, 두 번째 문제에 대해서는 feature/score map의 aggregation을 이용했고, 세 번째 문제에서는 conditional random field (CRF)를 적용했다.

 

Astrous Convolution for Dense Feature Extraction and Field-of-View Enlargement

max-pooling과 striding에 의해 feature map의 spatial resolution이 significant하게 reduce됨을 설명한다. atrous convolution을 해결책으로 제시한다. computational cost를 줄이기 위해 bilinear interpolation을 이용한 hybrid approach를 적용했다. astros convolution을 통해 임의의 DCNN layer의 filter의 field-of-view를 enlarge할 수 있음을 설명한다. astrous convolution을 efficient하게 구현하는 방법으로 1) hole을 insert하거나 input feature map을 sparse하게 뽑는 것, 2) subsampling을 한 다음 deinterlacing을 하는 방법을 제시한다.

 

Multiscale Image Represnetations using Atrous Spatial Pyramid Pooling

object scale을 explicitly하게 고려함으로써 크거나 작은 object에 대한 detection ability를 improve할 수 있음을 밝힌다. 1) multiscale processing과 2)의 두 가지 방법을 적용해보았다고 설명한다.

Structured Prediction with Fully Connected Conditional Random Fields for Accurate Boundary Recovery

localization accuracy와 classification performance 사이의 trade-off를 설명한다. 이를 해결하기 위한 방법으로 CRF를 이용하는 방법을 제안한다.