[정리] Overview of Video Super-Resolution (VSR)
Super-Resolution의 목표
저해상도 (low-resolution, LR) 이미지로부터 고해상도 (high-resolution, HR) 이미지를 생성 (복원)
Super-Resolution의 종류
- Single Image Super-Resolution (SISR) : 이미지 한 장에 대한 SR 문제를 의미함
- Multi-Image Super-Resolution (MISR) : 여러 장의 이미지들에 대한 SR 문제를 의미하며, 일반적으로 여러 장의 이미지들을 모델의 입력으로 놓고 출력은 중간에 위치한 한 장의 이미지라고 문제를 정의함
- Video Super-Resolution (VSR) : 많은 논문들에서 MISR과 VSR을 동일한 문제로서 두는 경우가 많지만 차이를 설명하자면 시간적 정보에 대한 정렬과 관련한 프로세스가 존재하는 지 여부가 될 수 있음
딥러닝 기반 Video Super-Resolution (VSR) 연구의 트렌드 흐름
딥러닝 기반 VSR 연구는 'VSRNet' [1] 이라는 이름의 모델과 함께 2016년에 시작되었으며, 본 글에서는 매 해 핵심적인 모델들을 대표로 하여 연구 트렌드 흐름을 살펴보고자 한다.
- [2016~2017] 네트워크 구조는 단순하게 설계하면서 optical-flow 기반의 explicit alignment를 수행 (참고로, VESPCN [2]의 기반이 되었던 모델인 ESPCN [13]을 통해 제안된 PixelShuffle 기반 Up-sampling 구조는 현재도 가장 일반적으로 사용되는 Up-sampling 방식)
- [2018~2019] DUF [3], EDVR [4] 모델이 차례로 SOTA 성능을 보이며 implicit alignment 연구가 주를 이룸
- [2020~2021] 2020년 들어서는 모델 구조도 훨씬 복잡해지고, 당시 SOTA를 차지한 모델인 iSeeBetter [5]과 RRN-L [6]의 공통점이 recurrent propagation 구조를 기반으로 한다는 점으로 보아 local propagation에서 recurrent propagation으로 연구 트렌드가 변했던 시점이 바로 이 때 였음을 알 수 있음
- [2021~2022] 2021년에 많은 최신 연구들의 베이스라인이 되는 BasicVSR [7] 모델이 등장하였으며 2022년에 제안된 BasicVSR++ [8] 에서 구조화 한 새로운 recurrent propagation 프레임워크와 explicit과 implicit을 결합한 alignment 모듈은 많은 최신 연구들에 영향을 끼쳤음
- [2022~] 2022년 3월 기준, VSR SOTA 모델들의 트렌드는 다른 vision task들과 마찬가지로 'Transformer'라고 할 수 있음. 초창기 Transformer 기반 VSR 모델인 VSR-Transformer (2021) [14], VRT [9]의 최대 단점은 높은 모델 복잡도 (VSR-Transformer: 32.6M, VRT: 35.6M) 라고 할 수 있는데 이 후 제안된 모델들 (RVRT: 10.8M, PSRT: 13.4M, FTVSR: 10.8M)의 경우 복잡도도 줄이면서 더 높은 PSNR 성능을 달성함
[References]
[1] A. Kappeler, S. H. Yoo, Q. Dai, and A. K. Katsaggelos, “Video super-resolution with convolutional neural networks,” IEEE Transactions on Computational Imaging, vol. 2, no. 2, pp. 109-122, 2016.
[2] J. Caballero, C. Ledig, A. Andrew, A. Alejandro, J. Totz, Z.Wang, and W. Shi, “Real-time video super-resolution with spatio-temporal networks and motion compensation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4778-4787, 2017.
[3] Y. Jo, S. W. Oh, J. Kang, and S. J. Kim, “Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3224-3232, 2018.
[4] X. Wang, K. C. Chan, K. Yu, C. Dong, and C. C. Loy, “Edvr: Video restoration with enhanced deformable convolutional networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2019.
[5] A. Chadha, J. Britto, and M. M. Roja, “iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks,” Computational Visual Media, vol. 6, pp. 307-317, 2020.
[6] T. Isobe, F. Zhu, X. Jia, and S. Wang, “Revisiting temporal modeling for video super-resolution,” arXiv preprint arXiv:2008.05765, 2020.
[7] K. C. Chan, X. Wang, K. Yu, C. Dong, and C. C. Loy, “Basicvsr: The search for essential components in video super-resolution and beyond,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4947-4956, 2021.
[8] K. C. Chan, S. Zhou, X. Xu, and C. C. Loy, “Basicvsr++: Improving video super-resolution with enhanced propagation and alignment,“ in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5972-5981, 2022.
[9] J. Liang, J. Cao, Y. Fan, K. Zhang, R. Ranjan, Y. Li, R. Timofte, and L. Van Gool, “Vrt: A video restoration transformer,” arXiv preprint arXiv:2201.12288, 2022.
[10] J. Liang, Y. Fan, X. Xiang, R. Ranjan, E. Ilg, S. Green, J. Cao, K. Zhang, R. Timofte, and L. Van Gool, "Recurrent video restoration transformer with guided deformable attention," in Proceedings of Conference on Neural Information Processing Systems (NeurIPS), 2022.
[11] S. Shi, J. Gu, L. Xie, X. Wang, Y. Yang, and C. Dong, "Rethinking alignment in video super-resolution transformers," in Proceedings of Conference on Neural Information Processing Systems (NeurIPS), 2022.
[12] Z. Qiu, H. Yang, J. Fu, and D. Fu, "Learning spatiotemporal frequency-transformer for compressed video super-resolution," in Proceedings of European Conference on Computer Vision (ECCV), 2022.
[13] W. Shi, J. Caballero, F. Huszar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, and Z. Wang, “Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network,“ in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1874-1883, 2016.
[14] Jiezhang Cao, Yawei Li, Kai Zhang, and Luc Van Gool. Video super-resolution transformer. arXiv preprint arXiv:2106.06847, 2021.