값비싼 GPU가 절반은 놀고 있었다, 로봇 AI 훈련 속도를 86% 끌어올린 한 끗 차이

aimatters · 2026.05.21 11:00:19

로봇을 더 똑똑하게 만들려면 더 큰 인공지능과 더 많은 그래픽 카드(GPU)가 필요하다고들 생각한다. 그런데 중국 징둥(JD)의 AI 인프라 팀과 칭화대·베이징대 등 연구진이 2026년 5월 공개한 보고서는 정반대를 짚었다. 정작 값비싼 GPU는 절반 가까이 놀고 있었고, 진짜 걸림돌은 장비 부족이 아니라 여러 작업이 한 GPU 위에서 뒤엉키는 '교통 체증'이었다는 것이다. 연구진이 내놓은 D-VLA 프레임워크는 GPU를 한 장도 더 붙이지 않고, 같은 장비로 VLA 모델 강화학습 훈련 속도를 최대 86% 끌어올렸다.

VLA 모델 강화학습을 가로막은 GPU 버블의 정체

로봇 AI 훈련의 진짜 병목은 인공지능의 머리가 아니라 GPU의 빈 시간에 있었다. 비전-언어-행동(Vision-Language-Action, VLA) 모델이란 카메라로 본 장면과 사람의 말 명령을 한꺼번에 입력받아 로봇이 실제로 어떻게 움직일지 행동까지 스스로 만들어내는 인공지능을 말한다. 오픈VLA(OpenVLA), 파이제로(π0), 그루트(GR00T) 같은 모델이 대표적이고, 요즘 화제가 되는 휴머노이드 로봇의 두뇌가 바로 이 계열이다.

지금까지 이런 모델은 사람이 모은 시범 데이터를 그대로 따라 하는 방식, 즉 지도학습 미세조정(Supervised Fine-Tuning)으로 주로 훈련됐다. 그런데 사람이 로봇 동작 데이터를 일일이 모으는 일은 비싸고 느리며, 한 번도 본 적 없는 상황을 만나면 로봇이 쉽게 헤맸다. 그래서 연구자들은 정답을 알려주는 대신 로봇이 직접 시행착오를 겪게 하는 강화학습(Reinforcement Learning)으로 눈을 돌리고 있다. 강화학습이란 정답을 일일이 가르치는 대신 시행착오를 거쳐 보상이 높은 행동을 스스로 찾아가게 하는 학습 방식이다.

문제는 로봇 강화학습이 두 가지 무거운 작업을 동시에 돌려야 한다는 데 있다. 하나는 로봇이 가상 세계에서 물건을 집고 옮기는 물리 시뮬레이션이고, 다른 하나는 그 경험을 받아 인공지능을 똑똑하게 다듬는 학습 계산이다. 그런데 이 둘이 같은 GPU를 두고 서로 자원을 빼앗으면서, 한쪽이 일하는 동안 다른 쪽은 멈춰 기다리는 일이 반복됐다. 연구진은 이렇게 비싼 GPU가 다음 작업을 기다리며 아무 일도 안 하고 멈춰 있는 빈 시간을 GPU 버블(GPU bubble)이라고 부른다. 쉽게 말해 식당 주방 하나를 두 요리사가 같이 쓰다 보니, 도마를 양보하느라 둘 다 칼을 멈추고 서 있는 상황인 셈이다.

처리량 최대 86% 향상, 16-GPU 실험이 보여준 격차

D-VLA는 GPU를 더 늘리지 않고도 같은 장비에서 처리량을 최대 86% 끌어올렸다. 여기서 처리량(throughput)이란 같은 시간 동안 로봇이 처리한 행동·상태 변화의 개수로, 높을수록 훈련이 빠르다는 뜻이다. 연구진은 동일한 GPU 클러스터에서 마니스킬(ManiSkill)이라는 GPU 기반 물리 시뮬레이터를 돌려 두 종류의 대표 모델로 비교 실험했다.

확산 방식 모델인 파이제로(π0.5)의 경우, 자원 배분을 조정한 설정에서 초당 237개 단계를 처리해 기존 대표 프레임워크(RLinf-co, 초당 127.24개)보다 86.26% 빨라졌다.

그림1. 분산 전략별 π0.5 모델의 처리량·추론 지연·실행 시간 비중 비교

자원을 균등하게 나눈 설정에서도 초당 147개로 22.25% 앞섰다. 더 무거운 트랜스포머 방식 모델인 오픈VLA-OFT(OpenVLA-OFT)에서는 초당 156개를 처리해 경쟁 프레임워크들(초당 108~110개대)을 44.44% 앞질렀다. 숫자만 보면 작은 차이처럼 느껴질 수 있지만, 훈련은 수십만 번의 시행착오를 쌓아 올리는 과정이라 이 격차가 누적되면 며칠 걸릴 훈련을 하루 만에 끝낼 수 있는 수준의 차이로 벌어진다.

한 단계를 처리하는 데 걸린 전체 시간도 크게 줄었다. 파이제로 실험에서 전체 단계 시간은 566.41초로, 비교 대상(RLinf-dis, 1006.8초)의 절반 수준인 50.43% 단축이었다. 무엇보다 중요한 점은 이렇게 속도를 높이는 동안 로봇이 과제를 성공시키는 비율, 즉 학습의 질은 떨어지지 않았다는 것이다. 빨리 가르치면 대충 배운다는 통념과 달리, 성공률 곡선은 기존 방식과 거의 같은 수준을 유지했다.

평면 분리와 4스레드 Swimlane 파이프라인의 작동 원리

D-VLA가 빨라진 비결은 더 좋은 부품이 아니라 작업을 섞지 않고 길을 갈라놓은 설계에 있다. 핵심 아이디어는 평면 분리(Plane Decoupling)다. 평면 분리란 자주 대량으로 오가는 데이터 통로와, 가끔만 오가는 모델 가중치 통로를 물리적으로 따로 떼어 놓아 서로 간섭하지 않게 만드는 설계를 말한다. 로봇이 환경과 주고받는 경험 데이터는 양이 많고 자주 오가므로 빠른 길로 보내고, 모델을 업데이트한 결과인 가중치는 가끔 오가지만 정확해야 하므로 별도의 안정적인 길로 보낸다. 연구진은 데이터가 다니는 길은 GPU에 맡기고, 가중치가 다니는 길은 CPU에 따로 맡겨, 둘이 서로의 발목을 잡지 않게 했다.

여기에 더해 연구진은 네 가지 작업을 수영장 레인처럼 갈라놓은 스윔레인(Swimlane) 파이프라인을 설계했다. 스윔레인이란 데이터 수집, 가중치 수신, 학습 계산, 가중치 배포라는 네 작업을 각자 자기 레인에서 동시에 달리게 해 서로 부딪히지 않게 한 구조를 말한다. 한 줄로 줄 서서 앞사람이 끝나기를 기다리던 방식에서, 네 명이 각자 자기 레인을 헤엄치는 방식으로 바꾼 셈이다. 그 결과 어느 한 작업이 끝나기를 기다리느라 GPU가 멈추는 일이 사라지고, 동기식으로 번갈아 돌릴 때보다 약 두 배의 처리량을 얻었다.

기억장치를 다루는 방식도 손봤다. 물리 시뮬레이터는 충돌 지점 같은 임시 데이터를 끊임없이 만들고 지우는데, 이 과정이 학습용 메모리를 잘게 부숴 놓아 프로그램이 멈추는 원인이 되곤 했다. D-VLA는 메모리를 모델 계산용과 시뮬레이터용 두 칸으로 아예 갈라놓는 듀얼풀 방식으로 이 충돌을 막았다. 또 같은 컴퓨터 안에서는 시뮬레이터가 본 화면을 학습 쪽이 복사 없이 곧장 가져다 쓰는 무복사(zero-copy) 방식으로 고화질 이미지를 주고받는 낭비를 줄였고, 대규모 컴퓨터를 묶을 때는 데이터를 가장 많이 주고받는 짝끼리 한 컴퓨터 안에 묶어 느린 외부 통신을 최소화했다. 학습 알고리즘으로는 그룹 상대 정책 최적화(GRPO)를 써서 보상이 드물게 주어지는 로봇 과제에 맞췄다.

환경 768개에서 정점을 찍은 확장의 한계선

속도를 무한정 끌어올릴 수는 없으며, 가장 빠른 지점은 의외로 일찍 찾아왔다. 연구진이 가상 로봇 환경을 384개에서 3,072개까지 늘려가며 시험한 결과, 처리량은 환경 768개에서 초당 379개로 정점을 찍은 뒤 더는 오르지 않고 오히려 살짝 내려가 3,072개에서는 초당 360개 안팎으로 안정됐다. 환경을 더 많이 띄울수록 무조건 빨라질 것 같지만, 어느 선을 넘으면 GPU의 메모리 대역폭과 연산 능력이 한계에 닿아 환경 하나하나의 처리 속도가 느려지기 때문이다.

이 결과는 로봇 AI를 키우려는 기업과 연구실에 실용적인 교훈을 준다. 무작정 일감을 늘리기보다, 시뮬레이션 쪽과 학습 쪽의 작업 시간이 엇비슷하게 균형을 이루는 지점을 찾아야 전체가 가장 빠르게 돈다는 것이다. 실제로 무거운 모델일수록 학습 쪽이 병목이 되어 시스템이 다시 '기다리는 모드'로 되돌아갔는데, 연구진은 자원 배분 비율을 바꿔 양쪽 시간을 다시 맞추는 것만으로 속도를 회복시켰다. 휴머노이드 로봇처럼 거대한 모델을 다루는 시대에는, 모델 자체만큼이나 이런 훈련 인프라의 균형 설계가 경쟁력을 가른다는 신호다.

모델보다 인프라가 갈림길이 되는 시대의 시사점

D-VLA가 던지는 더 큰 메시지는 인공지능 경쟁의 무게중심이 모델에서 그 모델을 굴리는 살림살이로 옮겨가고 있다는 점이다. 같은 GPU로 거의 두 배의 일을 해낸 비결이 새 부품이 아니라 작업을 섞지 않는 설계였다는 사실은, 앞으로 로봇 AI의 속도 경쟁이 누가 더 비싼 장비를 갖췄느냐가 아니라 누가 가진 장비를 덜 놀게 하느냐로 옮겨갈 가능성을 보여준다.

다만 이 보고서가 아직 동료 평가를 거치지 않은 사전 공개본이라는 점은 감안할 필요가 있다. 연구진은 조 단위 매개변수 모델에서도 안정적으로 확장된다고 밝혔지만, 실제 측정은 16장 규모의 GPU와 수십억 매개변수급 모델에서 이뤄졌고, 초거대 모델에서는 더 정교한 균형 맞춤이 필요하다는 점을 연구진 스스로도 향후 과제로 남겼다. 또 작업을 비동기로 돌리는 방식에는 한 단계 묵은 가중치를 쓰는 약간의 시차가 따르는데, 이번 실험에서는 성능에 큰 영향이 없었지만 과제가 더 복잡해질 때도 그러한지는 두고 볼 필요가 있다. 그럼에도 비싼 장비를 더 사들이기 전에 그 장비가 정말 쉬지 않고 일하고 있는지부터 따져봐야 한다는 D-VLA의 문제의식은, 로봇이든 챗봇이든 인공지능을 다루는 모든 현장에 그대로 적용될 만한 질문이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. VLA 모델이 정확히 무엇인가요?
VLA(비전-언어-행동) 모델은 카메라로 본 장면과 사람의 말 명령을 함께 입력받아, 로봇이 어떻게 움직일지 행동까지 한 번에 만들어내는 인공지능입니다. 화면 인식, 말 이해, 동작 생성을 따로 두지 않고 하나로 묶어 처리하기 때문에 휴머노이드 로봇이나 로봇 팔의 두뇌로 쓰입니다.

Q2. GPU를 더 사지 않고 어떻게 훈련 속도를 86%나 높였나요?
기존 방식에서는 물리 시뮬레이션과 학습 계산이 같은 GPU를 두고 다투느라 비싼 GPU가 자주 멈춰 있었습니다. D-VLA는 자주 오가는 데이터와 가끔 오가는 모델 가중치의 통로를 따로 떼어놓고, 네 가지 작업을 수영장 레인처럼 동시에 돌려 GPU가 노는 시간을 없앴습니다. 그래서 장비를 늘리지 않고도 같은 시간에 더 많은 일을 처리할 수 있었습니다.

Q3. 이 연구가 일반 사람들의 생활과 무슨 상관이 있나요?
로봇 AI 훈련이 빨라지고 저렴해지면, 집안일을 돕는 로봇이나 공장·물류 현장의 로봇이 더 빠르고 싸게 똑똑해질 수 있습니다. 훈련 비용은 결국 제품 가격과 보급 속도로 이어지기 때문에, 이런 인프라 기술은 로봇이 우리 일상으로 들어오는 시점을 앞당기는 밑바탕이 됩니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

번호	제목	글쓴이	작성일	조회	추천
설문	과거의 스타병을 뒤로하고 달라진 것 같은 스타는?	운영자	26/05/18	-	-
2860	정부, 이르면 11월 ‘전 국민 무료 AI’ 시작… 독자 모델 ‘KAI’로 2028년까지 무상 제공	aimatters	19:00	2	0
2859	[AI와 인간 사이] 안드레 카파시의 입사 선물, llm-wiki의 혁신과 그 함정에 대하여	aimatters	19:00	2	0
2858	마샬, 최대 80시간 재생 무선 온이어 헤드폰 ‘밀톤 ANC’ 출시	aimatters	19:00	2	0
2857	오픈AI, 스타강사 김미경과 ‘챗GPT 일잘러 수업’ 토크쇼 개최	aimatters	19:00	2	0
2856	알리바바, 모델∙칩∙서비스 겸비한 AI 풀스택 업그레이드… ‘Qwen3.7-맥스’ 공개	aimatters	19:00	2	0
2855	AMD, ‘라이젠 AI 헤일로’ 개발자 플랫폼 출시… 엔비디아 DFX 스파크 경쟁자 되나	aimatters	19:00	2	0
2854	xAI, 작년에 8조 6,000억 손실… 스페이스X 상장 서류로 드러난 머스크 AI의 민낯	aimatters	19:00	2	0
2853	짧은 영상 ‘바이럴’도 공식이 있다… 클라우티드, 슬로우벤처스 주도 700만 달러 유치	aimatters	19:00	2	0
2852	AI가 일자리를 없애기 전, ‘첫 직장의 문’부터 닫고 있다	aimatters	19:00	2	0
2851	“AI가 내 글 쓰면 돈 내라”… 파라그 아그라왈의 ‘Index’ 등장	aimatters	19:00	2	0
2850	CEO들이 ‘AI 토큰’을 월급처럼 나눠 준다… 문제는 ‘본전 계산’	aimatters	19:00	2	0
2849	“AI에도 규제가 필요하다”… 트럼프 행정부, 기류가 바뀌었다	aimatters	19:00	2	0
2848	애플, AI로 ‘자동 자막·실시간 인식’… 접근성 기능 대거 공개	aimatters	19:00	2	0
2847	세계 최대 회계 기업 KPMG, 27만 6,000명에 클로드 전면 도입… 앤트로픽과 글로벌 동맹	aimatters	19:00	2	0
2846	오픈AI 모델, 80년 수학 난제 ‘에르되시 추측’ 반증 성공... 수학자들 오열	aimatters	19:00	2	0
2845	머스크의 스페이스X, AI 코딩 스타트업 ‘커서’ 인수 날짜 타진	aimatters	19:00	2	0
2844	‘바이브 코딩’ 창시자 안드레이 카파시, 앤트로픽 합류	aimatters	19:00	2	0
2843	엔비디아, 1분기 매출 816억 달러 ‘깜짝 실적’… 호실적에도 주가는 미끄러졌다	aimatters	19:00	2	0
2842	당신 AI 비서가 회사 기밀 빼돌리는 4가지 수법, 9배 빠른 탐지기가 잡는다	aimatters	19:00	2	0
	값비싼 GPU가 절반은 놀고 있었다, 로봇 AI 훈련 속도를 86% 끌어올린 한 끗 차이 [9]	aimatters	11:00	906	0
2840	머스크, 오픈AI 소송 패소에 ‘불복’… ‘기한 기술적 판단일 뿐’ 항소 예고 [1]	aimatters	05.20	471	1
2839	모듈형 데이터센터 ‘아르마다’, 2.3억 달러 조달… 기업가치 20억 달러·애리조나 공장 짓는다	aimatters	05.20	13	0
2838	엔비디아, 오늘 1분기 실적 발표… 월가 ‘매출 약 788억 달러·데이터센터 728억’ 전망	aimatters	05.20	45	0
2837	오픈AI·델, ‘코덱스’ 기업 내부망 도입… 온프레미스·하이브리드 환경에 AI 에이전트 심는다	aimatters	05.20	12	0
2836	FBI, 전국 번호판 추적망 산다… 3,600만 달러 들여 ‘거의 실시간’ 차량 조회	aimatters	05.20	34	0
2835	델 테크놀로지스, ‘AI 시대 데이터센터’ 신제품 대거 공개… 파워스토어·파워엣지·사이버 복원력·자동화	aimatters	05.20	10	0
2834	소니코리아, 1000X 시리즈 10주년 ‘1000X THE COLLEXION’ 출시… AI 업스케일링 ‘DSEE Ultimate’ 첫 탑재	aimatters	05.20	23	0
2833	SBS·오픈AI, 6·3 지방선거 ‘실시간 AI 선거방송’… ‘AI 상황실·선거비서·영상아트’ 3종 공개	aimatters	05.20	14	0
2832	DJI, ‘RS 4 Pro 콤보 2026 에디션’ 출시… 짐벌에 무선 영상 전송 더해 1인 촬영도 ‘풀 크루’처럼	aimatters	05.20	14	0
2831	[구글 I/O 2026] 총정리… 제미나이 3.5 플래시, 제미나이 옴니, 제미나이 스파크, 구글 AI 글래스	aimatters	05.20	36	0
2830	[구글 I/O 2026] 24시간 일하는 개인 AI 에이전트 '제미나이 스파크' 공개… 받은편지함·일정·결제까지 대신 처리	aimatters	05.20	10	0
2829	[구글 I/O 2026] 맥OS용 제미나이 앱 업데이트... 음성∙문서로 업무 자동화	aimatters	05.20	12	0
2828	[구글 I/O 2026] AI가 알아서 사주는 '에이전틱 쇼핑' 공개… 유니버설 카트·AP2 결제 프로토콜	aimatters	05.20	11	0
2827	[구글 I/O 2026] 구글 크리에이티브 AI 공개… 이미지 편집 '픽스', UI 디자인 '스티치', 영상·음악 '플로우'	aimatters	05.20	13	0
2826	[구글 I/O 2026] 지도·유튜브·문서로 물어서 찾고 작성한다... 대화형 AI 확대	aimatters	05.20	11	0
2825	[구글 I/O 2026] 8세대 TPU '8t·8i' 듀얼칩 공개… 와트당 성능 2배, 초당 1500토큰 실시간 시연	aimatters	05.20	10	0
2824	[구글 I/O 2026] 구글 AI 글래스 디자인 공개… 젠틀몬스터 안경은 제니 안경을 닮았다	aimatters	05.20	35	0
2823	[AI는 이야기를 모른다] 제 4화. 라이온킹은 햄릿이다	aimatters	05.20	11	0
2822	AI는 인간의 착각을 돕는다	aimatters	05.20	13	0
2821	챗GPT 1위는 그대로인데 클로드 사용자가 1년 새 12배 폭증한 이유 [4]	aimatters	05.20	1010	0
2820	[구글 I/O 2026] 구글 '퀵 쉐어', 애플 '에어드랍'과 호환… iOS→안드로이드 데이터 이전도 무선으로	aimatters	05.20	50	0
2819	[구글 I/O 2026] 안드로이드 크롬에 '제미나이 인 크롬'·'자동 조작' 들어온다… 6월 미국 시작	aimatters	05.20	33	0
2818	[구글 I/O 2026] '안드로이드 쇼: I/O 에디션 2026' 개막… "안드로이드 역사상 가장 설레는 시기"	aimatters	05.20	13	0
2817	[구글 I/O 2026] 안드로이드 17 크리에이터 기능 대거 추가… 폰 화면∙내 얼굴 동시 녹화 '스크린 리액션', 어도비 프리미어 모바일 앱 출시	aimatters	05.20	51	0
2816	[구글 I/O 2026] 안드로이드에 '포즈 포인트' 도입… 앱 열면 10초 멈춰 "내가 뭘 하려고 했지?" 묻는다	aimatters	05.20	10	0
2815	[구글 I/O 2026] 실시간으로 3D 게임 만드는 '프로젝트 지니' 확대… 스트리트 뷰로 실제 장소 가상 세계로 바꾼다	aimatters	05.20	36	0
2814	[구글 I/O 2026] '제미나이 포 사이언스' 출시… 가설 생성부터 문헌 분석까지 한 번에	aimatters	05.20	47	0
2813	[구글 I/O 2026] AI 생성물 식별 도구 확대… 카카오·오픈AI·일레븐랩스도 '신스ID' 도입	aimatters	05.20	16	0
2812	[구글 I/O 2026] 구글 '제미나이 옴니' 공개… 지금은 영상 편집기, 곧 이미지·오디오까지 만든다	aimatters	05.20	16	0
2811	[구글 I/O 2026] 구글 '인텔리전트 아이웨어' 올가을 출격… 젠틀몬스터·와비파커 AI 글래스 나온다	aimatters	05.20	88	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[AI 매터스 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

대왕디시콘 사용중

대왕디시콘

즐겨찾기 추가 안내

즐겨찾기 추가 안내

색상 설정

즐겨찾기 편집

폴더명

즐겨찾기 편집

디시콘