세계 최고 권위의 컴퓨터 비전 학회 CVPR 2026에 채택된 논문이 AI 영상 화질 개선 분야에 새로운 이정표를 세웠다. 홍콩대학교(HKU) 연구팀이 개발한 'DUO-VSR'은 기존 최고 성능 모델 대비 논문 기준 50배 빠른 처리 속도를 달성하면서도 화질은 오히려 더 좋아졌다. 유튜브 영상부터 CCTV 영상까지, 흐릿한 영상을 선명하게 바꾸는 작업을 실시간으로 처리할 수 있는 길을 연 것이다.
이미지 1 버블 차트로 모델별 속도·화질·크기를 비교한 그래프와 실제 복원 결과 이미지
이미지 1 버블 차트로 모델별 속도·화질·크기를 비교한 그래프와 실제 복원 결과 이미지
수십 번 반복하던 AI 계산을 단 한 번에 끝내다
영상 화질 개선(Video Super-Resolution)은 저화질 영상을 고화질로 바꾸는 기술이다. 최근에는 확산 모델(Diffusion Model)이라는 AI 기술이 이 분야에서 뛰어난 성능을 보여주고 있다. 확산 모델은 마치 안개가 걷히듯 점진적으로 이미지를 만들어내는 방식으로, 놀라울 정도로 사실적인 디테일을 복원할 수 있다. 하지만 이 기술에는 치명적인 약점이 있었다. 바로 속도다.
기존 확산 모델 기반 영상 화질 개선 기술은 하나의 영상을 처리하기 위해 수십 번의 반복 계산을 수행해야 했다. 이는 실시간 영상 처리가 필요한 방송, 화상회의, 게임 스트리밍 같은 분야에서는 사실상 사용이 불가능한 수준이었다.
DUO-VSR은 이 문제를 정면으로 해결했다. 연구진은 수십 번 반복하던 과정을 단 한 번의 계산으로 줄이는 데 성공했다. 논문에 따르면 이 기술은 기존 모델보다 약 50배 빠른 속도를 달성했으며, DOVER라는 영상 품질 평가 지표에서도 기존 한 번 처리 방식의 모델들보다 더 높은 점수를 기록했다. 속도만 빨라진 게 아니라 품질까지 함께 끌어올린 것이다.
이중 스트림 증류가 해결한 세 가지 학습 문제
DUO-VSR의 핵심은 '이중 스트림 증류(Dual-Stream Distillation)'라는 독특한 학습 방식에 있다. 이를 이해하려면 먼저 AI 모델 증류(Distillation)라는 개념을 알아야 한다. 증류는 복잡하고 느린 '선생님 모델'의 지식을 빠르고 가벼운 '학생 모델'에게 전달하는 과정이다. 마치 대학 교수의 강의 내용을 중학생도 이해할 수 있게 요약하는 것과 비슷하다.
기존에는 분포 매칭 증류(Distribution Matching Distillation, DMD)라는 방법이 주로 사용됐다. 연구진은 이 방법을 영상 화질 개선에 그대로 적용하면 세 가지 심각한 문제가 발생한다는 것을 발견했다.
첫째, 훈련이 불안정해진다. 여러 단계를 거치던 모델을 갑자기 한 번에 처리하도록 바꾸면 학습 과정이 혼란스러워진다. 둘째, 선생님 모델이 때때로 틀린 답을 제시한다. 선생님 역할을 하는 실제 점수 모델(Real Score Model)은 가끔 원본과 위치가 어긋나거나 인공물(Artifact, 원본에 없는 이상한 노이즈나 패턴)이 포함된 결과를 만들어낸다. 셋째, 선생님 모델 자체가 완벽하지 않아 학생 모델의 성능에도 한계가 생긴다.
연구진은 이 문제들을 해결하기 위해 두 가지 감독 방식을 동시에 사용하는 이중 스트림 전략을 개발했다. 하나는 기존의 분포 매칭 증류 방식이고, 다른 하나는 '실제-가짜 점수 특징 GAN(Real-Fake Score Feature GAN, RFS-GAN)'이라는 새로운 방식이다. GAN은 생성적 적대 신경망(Generative Adversarial Network)의 약자로, 진짜와 가짜를 구별하는 판별자를 두고 생성자가 판별자를 속이려고 경쟁하면서 학습하는 방식이다.
RFS-GAN의 독특한 점은 실제 고화질 영상의 특징을 직접 활용한다는 것이다. 선생님 모델이 만든 결과물뿐 아니라 진짜 고화질 영상의 특징까지 참고함으로써, 학생 모델은 선생님의 한계를 넘어설 수 있게 된다.
3단계 훈련 파이프라인의 구조와 원리
DUO-VSR의 전체 훈련 과정은 세 단계로 구성된다. 첫 번째 단계는 '점진적 안내 증류 초기화(Progressive Guided Distillation Initialization)'다. 이 단계에서는 여러 단계를 거치던 모델을 점진적으로 줄여나가면서 한 번 처리 모델로 만든다. 갑자기 변화를 주면 모델이 혼란스러워하기 때문에, 천천히 적응시키는 과정이 필요하다.
두 번째 단계가 바로 핵심인 이중 스트림 증류다. 분포 매칭 증류와 RFS-GAN을 처음부터 함께 학습시키고, 실제 점수 모델과 가짜 점수 모델의 특징을 모두 사용한다. 이를 통해 선생님 모델의 잘못된 지도가 미치는 악영향을 줄이고, 더 높은 시각적 품질을 달성할 수 있었다.
세 번째 단계는 '선호도 기반 정제(Preference-Guided Refinement)'다. 기술적으로는 완벽해 보여도 사람 눈에는 부자연스러울 수 있기 때문에, 실제 사용자 선호도를 반영한 최종 조정 과정이다. 이 세 단계 파이프라인은 안정적인 최적화와 고품질 한 번 처리 영상 화질 개선을 가능하게 만들었다.
이미지 2 벽돌 질감, 사람 얼굴, 강아지 털 등 세 가지 영상에서 6개 모델의 화질 복원 결과를 나란히 비교한 이미지.
이미지 2 벽돌 질감, 사람 얼굴, 강아지 털 등 세 가지 영상에서 6개 모델의 화질 복원 결과를 나란히 비교한 이미지.
실시간 영상 처리가 바꿀 우리의 일상
DUO-VSR의 등장은 여러 산업 분야에 즉각적인 영향을 미칠 것으로 예상된다. 가장 먼저 혜택을 받을 분야는 스트리밍 서비스다. 넷플릭스(Netflix)나 유튜브(YouTube) 같은 플랫폼에서는 네트워크 상황에 따라 화질을 낮춰서 전송한다. DUO-VSR을 사용하면 낮은 화질로 받은 영상을 사용자의 기기에서 실시간으로 고화질로 복원할 수 있다.
화상회의 분야도 큰 변화를 맞이할 것이다. 줌(Zoom)이나 구글 미트(Google Meet) 같은 서비스에서 네트워크가 불안정할 때 화질이 떨어지는 경험은 누구나 해봤을 것이다. DUO-VSR을 적용하면 낮은 대역폭으로 전송된 영상을 받는 쪽에서 실시간으로 개선할 수 있다. 특히 원격 의료나 원격 교육처럼 화질이 중요한 분야에서 큰 도움이 될 것이다.
보안 분야에서도 활용 가능성이 크다. CCTV 영상은 저장 공간과 전송 대역폭을 절약하기 위해 낮은 화질로 저장되는 경우가 많다. DUO-VSR을 사용하면 흐릿한 영상에서 번호판이나 얼굴을 더 선명하게 복원할 수 있어 범죄 수사나 사고 조사에 결정적인 단서를 제공할 수 있다. 오래된 영화나 드라마 리마스터링, 클라우드 게임 스트리밍 서비스에도 적용 가능하며, 개인 크리에이터들도 스마트폰으로 촬영한 영상을 전문가 수준의 화질로 향상시킬 수 있게 된다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. DUO-VSR은 어떤 종류의 영상에 가장 효과적인가요?
A. DUO-VSR은 저화질로 압축된 스트리밍 영상, CCTV 영상, 오래된 아카이브 영상 등 다양한 저해상도 영상에 효과적입니다. 특히 실시간 처리가 필요한 화상회의나 라이브 스트리밍에서 그 장점이 극대화됩니다.
Q. 기존 영상 화질 개선 기술과 비교했을 때 DUO-VSR의 가장 큰 장점은 무엇인가요?
A. 가장 큰 장점은 속도와 품질을 동시에 달성했다는 점입니다. 기존 확산 모델 기반 방법들은 화질은 좋지만 느렸고, 빠른 방법들은 화질이 떨어졌습니다. DUO-VSR은 논문 기준 기존 모델보다 약 50배 빠르면서도 더 좋은 화질을 제공합니다.
Q. 일반 사용자가 DUO-VSR 기술을 직접 사용할 수 있나요?
A. 현재는 CVPR 2026에 채택된 연구 단계의 기술입니다. 프로젝트 웹페이지에서 관련 정보를 확인할 수 있으며, 향후 스트리밍 플랫폼, 화상회의 앱, 영상 편집 소프트웨어 등에 통합되어 일반 사용자들도 자연스럽게 사용할 수 있게 될 것으로 예상됩니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.