스튜디오 촬영 없이 스마트폰 사진 몇 장만으로 완성도 높은 3D 아바타를 만들 수 있다면 어떨까. 지금까지는 두 가지 중 하나를 포기해야 했다. 정밀한 아바타를 원하면 고가의 다중 카메라 스튜디오가 필요했고, 일반 사진으로 만들면 품질이 낮았다. 메타(Meta) 코덱 아바타 연구소가 2026년 4월 발표한 논문 '대규모 코덱 아바타(Large-scale Codec Avatars, 이하 LCA)'는 이 오랜 딜레마를 정면으로 깬다. 누구든 자신의 3D 아바타를 갖는 시대가 기술적으로 가능해졌다는 것을 보여주는 연구다.
그림1. 사전 학습과 사후 학습으로 완성한 고품질 전신 3D 아바타의 생성·애니메이션·확장 기능 비교
그림1. 사전 학습과 사후 학습으로 완성한 고품질 전신 3D 아바타의 생성·애니메이션·확장 기능 비교
스튜디오 vs. 일상 사진, 10년 묵은 딜레마의 핵심
3D 아바타 연구에는 오래된 갈등 구조가 있다. 한쪽에는 200대의 고해상도 카메라가 설치된 전문 스튜디오가 있다. 이 환경에서 만든 아바타는 눈썹 하나, 손가락 마디 하나까지 정밀하게 재현된다. 그러나 스튜디오를 쓸 수 있는 사람은 극소수다. 반대쪽에는 일반인이 찍은 수백만 장의 일상 사진과 영상이 있다. 데이터는 풍부하지만, 이것만으로 만든 아바타는 얼굴이 뭉개지고 팔다리 형태가 틀어지는 문제가 생긴다.
쉽게 설명하면 이렇다. 전문 스튜디오는 한 사람을 360도 모든 각도에서 동시에 찍어 3D 정보를 완벽하게 확보한다. 반면 일상 영상은 대부분 한 방향에서만 찍혀 있어, AI가 보이지 않는 뒷면이나 측면을 추측으로 채워야 한다. 추측이 많아질수록 아바타의 품질은 낮아진다. LCA 논문이 발표되기 전까지, 이 두 세계를 동시에 잡는 방법은 없었다.
그림 2. 이미지 토큰·기하 토큰 융합 구조와 사전·사후 학습 데이터 비교
그림 2. 이미지 토큰·기하 토큰 융합 구조와 사전·사후 학습 데이터 비교
챗GPT처럼 '먼저 많이 보고, 나중에 깊이 배운다'
LCA가 이 문제를 해결한 방법은 의외로 언어 AI의 학습 전략을 그대로 빌려온 것이다. 챗GPT(ChatGPT)나 클로드(Claude) 같은 대형 언어 모델은 두 단계로 학습한다. 먼저 인터넷에 있는 방대한 텍스트를 통해 언어의 전반적인 패턴을 익힌다(사전 학습). 이후 사람이 선별한 고품질 데이터로 더 정밀하게 다듬는다(사후 학습). LCA는 이 방식을 3D 아바타에 처음으로 적용했다.
구체적으로, LCA는 먼저 100만 개의 일상 영상으로 사전 학습을 진행했다. 이 단계에서 AI는 사람의 몸이 어떻게 생겼는지, 다양한 체형·피부색·헤어스타일·의상이 어떻게 다른지에 대한 폭넓은 '상식'을 쌓는다. 다음으로 200대 카메라를 갖춘 전문 스튜디오에서 촬영한 2,737명의 고품질 데이터로 사후 학습을 진행했다. 이 단계에서는 얼굴 표정, 손가락 움직임, 눈의 방향 같은 섬세한 동작까지 정밀하게 재현하는 능력을 갖춘다. 논문에 따르면 이 두 단계를 결합한 LCA의 화질 지표(PSNR)는 30.5를 기록했고, 일상 환경 테스트에서는 28.2를 기록해 기존 방식인 혼합 학습(각각 30.0, 28.0)을 모두 앞섰다.
한 번도 본 적 없는 안경을 쓴 아바타를 만들다
LCA에서 가장 주목할 만한 현상은 연구팀이 '창발적 일반화(Emergent Generalization)'라고 부르는 능력이다. 창발(創發)이란 부분들의 합을 넘어서는 새로운 능력이 저절로 생겨나는 현상을 말한다. LCA는 학습 데이터에 단 한 번도 포함되지 않았던 안경, 모자, 복잡한 헤어스타일을 쓴 인물을 입력해도 정확하게 아바타를 생성했다. 심지어 만화 캐릭터처럼 스타일화된 이미지에서도 제대로 된 3D 아바타를 만들어냈는데, 이런 유형의 이미지는 사전 학습과 사후 학습 모두에서 의도적으로 제외했음에도 불구하고 가능했다.
비유하자면, 수능 시험에서 한 번도 본 적 없는 유형의 문제를 푸는 것과 같다. 기존 방식의 AI는 반드시 그 유형을 한 번 이상 학습해야 했다. LCA는 100만 편의 일상 영상을 통해 '사람의 외모'에 대한 깊은 이해를 쌓았기 때문에, 본 적 없는 외모 요소도 논리적으로 추론해 처리할 수 있게 됐다. 100만 개에서 100만 개로 사전 학습 데이터를 단계적으로 늘렸을 때, 일상 환경 재현 오차(L1)가 0.0109에서 0.0096으로 꾸준히 줄어든 것도 데이터 규모 자체가 이 능력의 핵심임을 보여준다.
1초 안에 생성, 실시간으로 움직이는 디지털 나
LCA는 화질만 뛰어난 게 아니다. 속도도 실용 수준에 도달했다. 아바타 생성 자체는 사진 몇 장을 입력하면 수 초 내에 완료된다. 생성된 아바타는 이후 실시간으로 구동된다. 논문에 따르면, 아바타 생성 이후 동작을 구현하는 단계는 고성능 GPU(A100) 기준 초당 586 프레임(FPS)으로 동작한다. 초당 30프레임이면 영화 수준의 자연스러운 움직임을 구현할 수 있다는 점을 감안하면, 586FPS는 실시간 구동에 필요한 속도를 20배 가까이 초과하는 수치다. 화상회의, 메타버스 공간에서 내 아바타가 내 표정과 몸짓을 실시간으로 따라오는 것이 기술적으로 완전히 가능해졌다는 의미다.
여기에 더해 LCA는 원피스·치마처럼 몸에 달라붙지 않는 헐렁한 의상도 자연스럽게 움직이며, 조명 환경을 바꿔도 피부와 옷 질감이 현실감 있게 반응하는 '리라이팅(Relighting)' 기능도 지원한다. 직접 촬영한 일반 스마트폰 사진에서 시작했는데도, 스튜디오 조명 아래 있는 것처럼 아바타의 피부 반사와 그림자가 바뀐다.
'모두를 위한 아바타'의 현실적 거리
논문은 "모든 사람을 위한 진정한 커뮤니케이션 서비스"를 목표로 명시하고 있다. 기술적 완성도는 상당히 높은 수준에 도달한 것으로 보인다. 다만 논문 자체가 몇 가지 한계를 솔직히 인정한다. 자수나 정교한 무늬가 있는 의상은 아직 재현이 어렵고, 머리카락의 흔들림이나 가방 같은 소품의 움직임은 구현되지 않는다. 빠른 움직임이나 물체에 가려지는 상황도 품질이 떨어진다.
또한 이 연구가 메타 내부의 대규모 스튜디오 인프라(200대 카메라, 2,737명의 피험자)를 기반으로 사후 학습을 진행했다는 점은 눈여겨볼 필요가 있다. 일반 사용자나 중소 규모 개발사가 동일한 수준의 사후 학습 데이터를 확보하기 어렵다는 구조적 격차가 존재한다. 기술이 제품으로 전환될 때 이 격차가 어떻게 좁혀질지는 두고 볼 필요가 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 대규모 코덱 아바타(LCA)란 무엇인가요? 대규모 코덱 아바타(LCA)는 메타가 개발한 3D 아바타 생성 기술로, 스마트폰으로 찍은 사진 몇 장만으로 얼굴 표정과 전신 동작이 가능한 고품질 디지털 아바타를 수 초 안에 만들어 줍니다. 100만 개의 일상 영상으로 사전 학습하고, 전문 스튜디오 데이터로 정밀하게 보완하는 2단계 학습 방식이 핵심입니다.
Q. 기존 3D 아바타 기술과 어떻게 다른가요? 기존 기술은 '품질'과 '범용성' 중 하나를 포기해야 했습니다. 전문 스튜디오에서 만든 아바타는 품질이 높지만 일반인이 접근하기 어려웠고, 일상 사진으로 만든 아바타는 얼굴이 흐릿하거나 팔다리 형태가 왜곡되는 문제가 있었습니다. LCA는 두 가지를 동시에 달성한 첫 번째 모델로, 논문에서 화질 측정 지표인 PSNR 기준 기존 최고 수준 대비 최대 9.8dB 향상을 기록했습니다.
Q. 이 기술이 실생활에서 활용될 수 있나요? 아바타 생성 후 실시간 구동 속도가 초당 586 프레임에 달해 화상회의, 메타버스, 게임 등에서 내 분신을 실시간으로 움직이는 것이 기술적으로 가능합니다. 다만 현재 논문 단계이며, 자수 등 복잡한 의상과 빠른 동작에는 아직 한계가 있어 실제 서비스 적용까지는 추가 개발이 필요합니다.
댓글 영역