로봇을 더 똑똑하게 만들려면 더 큰 인공지능과 더 많은 그래픽 카드(GPU)가 필요하다고들 생각한다. 그런데 중국 징둥(JD)의 AI 인프라 팀과 칭화대·베이징대 등 연구진이 2026년 5월 공개한 보고서는 정반대를 짚었다. 정작 값비싼 GPU는 절반 가까이 놀고 있었고, 진짜 걸림돌은 장비 부족이 아니라 여러 작업이 한 GPU 위에서 뒤엉키는 '교통 체증'이었다는 것이다. 연구진이 내놓은 D-VLA 프레임워크는 GPU를 한 장도 더 붙이지 않고, 같은 장비로 VLA 모델 강화학습 훈련 속도를 최대 86% 끌어올렸다.
VLA 모델 강화학습을 가로막은 GPU 버블의 정체
로봇 AI 훈련의 진짜 병목은 인공지능의 머리가 아니라 GPU의 빈 시간에 있었다. 비전-언어-행동(Vision-Language-Action, VLA) 모델이란 카메라로 본 장면과 사람의 말 명령을 한꺼번에 입력받아 로봇이 실제로 어떻게 움직일지 행동까지 스스로 만들어내는 인공지능을 말한다. 오픈VLA(OpenVLA), 파이제로(π0), 그루트(GR00T) 같은 모델이 대표적이고, 요즘 화제가 되는 휴머노이드 로봇의 두뇌가 바로 이 계열이다.
지금까지 이런 모델은 사람이 모은 시범 데이터를 그대로 따라 하는 방식, 즉 지도학습 미세조정(Supervised Fine-Tuning)으로 주로 훈련됐다. 그런데 사람이 로봇 동작 데이터를 일일이 모으는 일은 비싸고 느리며, 한 번도 본 적 없는 상황을 만나면 로봇이 쉽게 헤맸다. 그래서 연구자들은 정답을 알려주는 대신 로봇이 직접 시행착오를 겪게 하는 강화학습(Reinforcement Learning)으로 눈을 돌리고 있다. 강화학습이란 정답을 일일이 가르치는 대신 시행착오를 거쳐 보상이 높은 행동을 스스로 찾아가게 하는 학습 방식이다.
문제는 로봇 강화학습이 두 가지 무거운 작업을 동시에 돌려야 한다는 데 있다. 하나는 로봇이 가상 세계에서 물건을 집고 옮기는 물리 시뮬레이션이고, 다른 하나는 그 경험을 받아 인공지능을 똑똑하게 다듬는 학습 계산이다. 그런데 이 둘이 같은 GPU를 두고 서로 자원을 빼앗으면서, 한쪽이 일하는 동안 다른 쪽은 멈춰 기다리는 일이 반복됐다. 연구진은 이렇게 비싼 GPU가 다음 작업을 기다리며 아무 일도 안 하고 멈춰 있는 빈 시간을 GPU 버블(GPU bubble)이라고 부른다. 쉽게 말해 식당 주방 하나를 두 요리사가 같이 쓰다 보니, 도마를 양보하느라 둘 다 칼을 멈추고 서 있는 상황인 셈이다.
처리량 최대 86% 향상, 16-GPU 실험이 보여준 격차
D-VLA는 GPU를 더 늘리지 않고도 같은 장비에서 처리량을 최대 86% 끌어올렸다. 여기서 처리량(throughput)이란 같은 시간 동안 로봇이 처리한 행동·상태 변화의 개수로, 높을수록 훈련이 빠르다는 뜻이다. 연구진은 동일한 GPU 클러스터에서 마니스킬(ManiSkill)이라는 GPU 기반 물리 시뮬레이터를 돌려 두 종류의 대표 모델로 비교 실험했다.
확산 방식 모델인 파이제로(π0.5)의 경우, 자원 배분을 조정한 설정에서 초당 237개 단계를 처리해 기존 대표 프레임워크(RLinf-co, 초당 127.24개)보다 86.26% 빨라졌다.
그림1. 분산 전략별 π0.5 모델의 처리량·추론 지연·실행 시간 비중 비교
그림1. 분산 전략별 π0.5 모델의 처리량·추론 지연·실행 시간 비중 비교
자원을 균등하게 나눈 설정에서도 초당 147개로 22.25% 앞섰다. 더 무거운 트랜스포머 방식 모델인 오픈VLA-OFT(OpenVLA-OFT)에서는 초당 156개를 처리해 경쟁 프레임워크들(초당 108~110개대)을 44.44% 앞질렀다. 숫자만 보면 작은 차이처럼 느껴질 수 있지만, 훈련은 수십만 번의 시행착오를 쌓아 올리는 과정이라 이 격차가 누적되면 며칠 걸릴 훈련을 하루 만에 끝낼 수 있는 수준의 차이로 벌어진다.
한 단계를 처리하는 데 걸린 전체 시간도 크게 줄었다. 파이제로 실험에서 전체 단계 시간은 566.41초로, 비교 대상(RLinf-dis, 1006.8초)의 절반 수준인 50.43% 단축이었다. 무엇보다 중요한 점은 이렇게 속도를 높이는 동안 로봇이 과제를 성공시키는 비율, 즉 학습의 질은 떨어지지 않았다는 것이다. 빨리 가르치면 대충 배운다는 통념과 달리, 성공률 곡선은 기존 방식과 거의 같은 수준을 유지했다.
평면 분리와 4스레드 Swimlane 파이프라인의 작동 원리
D-VLA가 빨라진 비결은 더 좋은 부품이 아니라 작업을 섞지 않고 길을 갈라놓은 설계에 있다. 핵심 아이디어는 평면 분리(Plane Decoupling)다. 평면 분리란 자주 대량으로 오가는 데이터 통로와, 가끔만 오가는 모델 가중치 통로를 물리적으로 따로 떼어 놓아 서로 간섭하지 않게 만드는 설계를 말한다. 로봇이 환경과 주고받는 경험 데이터는 양이 많고 자주 오가므로 빠른 길로 보내고, 모델을 업데이트한 결과인 가중치는 가끔 오가지만 정확해야 하므로 별도의 안정적인 길로 보낸다. 연구진은 데이터가 다니는 길은 GPU에 맡기고, 가중치가 다니는 길은 CPU에 따로 맡겨, 둘이 서로의 발목을 잡지 않게 했다.
여기에 더해 연구진은 네 가지 작업을 수영장 레인처럼 갈라놓은 스윔레인(Swimlane) 파이프라인을 설계했다. 스윔레인이란 데이터 수집, 가중치 수신, 학습 계산, 가중치 배포라는 네 작업을 각자 자기 레인에서 동시에 달리게 해 서로 부딪히지 않게 한 구조를 말한다. 한 줄로 줄 서서 앞사람이 끝나기를 기다리던 방식에서, 네 명이 각자 자기 레인을 헤엄치는 방식으로 바꾼 셈이다. 그 결과 어느 한 작업이 끝나기를 기다리느라 GPU가 멈추는 일이 사라지고, 동기식으로 번갈아 돌릴 때보다 약 두 배의 처리량을 얻었다.
기억장치를 다루는 방식도 손봤다. 물리 시뮬레이터는 충돌 지점 같은 임시 데이터를 끊임없이 만들고 지우는데, 이 과정이 학습용 메모리를 잘게 부숴 놓아 프로그램이 멈추는 원인이 되곤 했다. D-VLA는 메모리를 모델 계산용과 시뮬레이터용 두 칸으로 아예 갈라놓는 듀얼풀 방식으로 이 충돌을 막았다. 또 같은 컴퓨터 안에서는 시뮬레이터가 본 화면을 학습 쪽이 복사 없이 곧장 가져다 쓰는 무복사(zero-copy) 방식으로 고화질 이미지를 주고받는 낭비를 줄였고, 대규모 컴퓨터를 묶을 때는 데이터를 가장 많이 주고받는 짝끼리 한 컴퓨터 안에 묶어 느린 외부 통신을 최소화했다. 학습 알고리즘으로는 그룹 상대 정책 최적화(GRPO)를 써서 보상이 드물게 주어지는 로봇 과제에 맞췄다.
환경 768개에서 정점을 찍은 확장의 한계선
속도를 무한정 끌어올릴 수는 없으며, 가장 빠른 지점은 의외로 일찍 찾아왔다. 연구진이 가상 로봇 환경을 384개에서 3,072개까지 늘려가며 시험한 결과, 처리량은 환경 768개에서 초당 379개로 정점을 찍은 뒤 더는 오르지 않고 오히려 살짝 내려가 3,072개에서는 초당 360개 안팎으로 안정됐다. 환경을 더 많이 띄울수록 무조건 빨라질 것 같지만, 어느 선을 넘으면 GPU의 메모리 대역폭과 연산 능력이 한계에 닿아 환경 하나하나의 처리 속도가 느려지기 때문이다.
이 결과는 로봇 AI를 키우려는 기업과 연구실에 실용적인 교훈을 준다. 무작정 일감을 늘리기보다, 시뮬레이션 쪽과 학습 쪽의 작업 시간이 엇비슷하게 균형을 이루는 지점을 찾아야 전체가 가장 빠르게 돈다는 것이다. 실제로 무거운 모델일수록 학습 쪽이 병목이 되어 시스템이 다시 '기다리는 모드'로 되돌아갔는데, 연구진은 자원 배분 비율을 바꿔 양쪽 시간을 다시 맞추는 것만으로 속도를 회복시켰다. 휴머노이드 로봇처럼 거대한 모델을 다루는 시대에는, 모델 자체만큼이나 이런 훈련 인프라의 균형 설계가 경쟁력을 가른다는 신호다.
모델보다 인프라가 갈림길이 되는 시대의 시사점
D-VLA가 던지는 더 큰 메시지는 인공지능 경쟁의 무게중심이 모델에서 그 모델을 굴리는 살림살이로 옮겨가고 있다는 점이다. 같은 GPU로 거의 두 배의 일을 해낸 비결이 새 부품이 아니라 작업을 섞지 않는 설계였다는 사실은, 앞으로 로봇 AI의 속도 경쟁이 누가 더 비싼 장비를 갖췄느냐가 아니라 누가 가진 장비를 덜 놀게 하느냐로 옮겨갈 가능성을 보여준다.
다만 이 보고서가 아직 동료 평가를 거치지 않은 사전 공개본이라는 점은 감안할 필요가 있다. 연구진은 조 단위 매개변수 모델에서도 안정적으로 확장된다고 밝혔지만, 실제 측정은 16장 규모의 GPU와 수십억 매개변수급 모델에서 이뤄졌고, 초거대 모델에서는 더 정교한 균형 맞춤이 필요하다는 점을 연구진 스스로도 향후 과제로 남겼다. 또 작업을 비동기로 돌리는 방식에는 한 단계 묵은 가중치를 쓰는 약간의 시차가 따르는데, 이번 실험에서는 성능에 큰 영향이 없었지만 과제가 더 복잡해질 때도 그러한지는 두고 볼 필요가 있다. 그럼에도 비싼 장비를 더 사들이기 전에 그 장비가 정말 쉬지 않고 일하고 있는지부터 따져봐야 한다는 D-VLA의 문제의식은, 로봇이든 챗봇이든 인공지능을 다루는 모든 현장에 그대로 적용될 만한 질문이다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. VLA 모델이 정확히 무엇인가요? VLA(비전-언어-행동) 모델은 카메라로 본 장면과 사람의 말 명령을 함께 입력받아, 로봇이 어떻게 움직일지 행동까지 한 번에 만들어내는 인공지능입니다. 화면 인식, 말 이해, 동작 생성을 따로 두지 않고 하나로 묶어 처리하기 때문에 휴머노이드 로봇이나 로봇 팔의 두뇌로 쓰입니다.
Q2. GPU를 더 사지 않고 어떻게 훈련 속도를 86%나 높였나요? 기존 방식에서는 물리 시뮬레이션과 학습 계산이 같은 GPU를 두고 다투느라 비싼 GPU가 자주 멈춰 있었습니다. D-VLA는 자주 오가는 데이터와 가끔 오가는 모델 가중치의 통로를 따로 떼어놓고, 네 가지 작업을 수영장 레인처럼 동시에 돌려 GPU가 노는 시간을 없앴습니다. 그래서 장비를 늘리지 않고도 같은 시간에 더 많은 일을 처리할 수 있었습니다.
Q3. 이 연구가 일반 사람들의 생활과 무슨 상관이 있나요? 로봇 AI 훈련이 빨라지고 저렴해지면, 집안일을 돕는 로봇이나 공장·물류 현장의 로봇이 더 빠르고 싸게 똑똑해질 수 있습니다. 훈련 비용은 결국 제품 가격과 보급 속도로 이어지기 때문에, 이런 인프라 기술은 로봇이 우리 일상으로 들어오는 시점을 앞당기는 밑바탕이 됩니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models 이미지 출처: AI 생성 콘텐츠 해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
댓글 영역