Research/Super-Resolution

[논문 리뷰] Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

영스퀘어 2022. 2. 23. 17:40

오늘은 VSR 논문 중 하나인 VESPCN (Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation [1] ) 에서 사용된 네트워크인 ESPCN (Efficient Sub-Pixel Convolutional Neural Network) [2] 에 대하여 소개한다.

 

ESPCN은 pre-processing 과정에서 low resolution (LR) 이미지를 bicubic interpolation 등의 filterupscaling 하여 high resolution (HR) 이미지로 만들어 네트워크의 input으로 넣는 기존의 방법 대신 LR 이미지를 다이렉트로 학습시킨 후, 마지막 레이어에서 upscaling filter를 학습시켜 HR 이미지를 최종 output으로 얻는 방식이다.

 

Input resolution 사이즈가 작아짐으로써 filter size도 작아져 시간 복잡도 및 메모리 측면에서 효율적이고 LR space를 유지한 채 학습이 진행이 되므로 Feature 추출 측면에서도 효율적이다.

 

본 논문에서 제안하는 sub-pixel 기반의 LR to HR filter 학습을 위한 레이어는 기존의 interpolation filter보다 계산량이 적으면서 화질 개선 측면에서도 효율적이라 할 수 있다.

 

위와 같은 레이어 구성 수식을 코드로 표현하면, 아래와 같다.

self.conv1 = nn.Conv2d(1, 64, (5, 5), (1, 1), (2, 2))
self.conv2 = nn.Conv2d(64, 64, (3, 3), (1, 1), (1, 1))
self.conv3 = nn.Conv2d(64, 32, (3, 3), (1, 1), (1, 1))
self.conv4 = nn.Conv2d(32, 1 * (upscale_factor ** 2), (3, 3), (1, 1), (1, 1))
self.pixel_shuffle = nn.PixelShuffle(upscale_factor)

결과적으로, PSNR 측면에서 다른 SISR 모델들보다 높은 성능을 보인다.



[References]

[1] Caballero, Jose, et al. "Real-time video super-resolution with spatio-temporal networks and motion compensation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[2] Shi, Wenzhe, et al. "Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.