디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇

aimatters갤로그로 이동합니다. 2026.02.05 14:58:23
조회 78 추천 0 댓글 0


홍콩과기대(The Hong Kong University of Science and Technology)와 상하이 AI연구소(Shanghai AI Laboratory)가 공동 개발한 휴먼엑스(HumanX)는 사람이 촬영한 영상 하나만으로 휴머노이드 로봇에게 복잡한 상호작용 기술을 학습시키는 획기적인 시스템이다. 해당 논문에 따르면, 이 시스템은 농구 슛, 축구 킥, 배드민턴 타격부터 화물 운반, 심지어 사람과의 격투 대응까지 다양한 기술을 마치 사람처럼 자연스럽게 구사한다고 밝혔다. 특히 단 한 편의 시연 영상만으로도 해당 기술을 학습하고, 상황에 맞게 응용할 수 있다는 점에서 기존 로봇 학습 방식의 한계를 뛰어넘었다는 평가를 받는다.



영상 하나로 수십 가지 연습 데이터 자동 생성하는 비결

휴먼엑스는 두 가지 핵심 기술로 구성된다.

첫 번째는 엑스젠(XGen)이라는 데이터 생성 시스템이다. 엑스젠은 사람이 찍은 영상에서 로봇이 연습할 수 있는 데이터를 만들어낸다. 기존 방식들은 영상을 정확하게 따라하려다 보니 물리적으로 불가능한 동작이 만들어지는 문제가 있었다. 엑스젠은 접근 방식을 바꿨다. 영상을 정확히 재현하기보다는 물리 법칙에 맞는 그럴듯한 동작을 만드는 데 집중한 것이다.


구체적으로 엑스젠은 세 단계로 작동한다. 먼저 GVHMR이라는 기술로 영상에서 사람의 동작을 추출한다. 그 다음 GMR이라는 시스템을 통해 사람의 동작을 로봇 몸에 맞게 변환한다. 사람과 로봇은 팔다리 길이나 관절 구조가 다르기 때문에 이런 변환 과정이 필요하다. 마지막으로 물리 시뮬레이션을 통해 공이나 물체가 어떻게 움직일지 계산한다. 손과 공이 닿는 순간에는 힘의 균형을 고려해 로봇의 자세를 최적화한다.

더 중요한 건 한 편의 영상에서 수십 가지 연습 데이터를 자동으로 만들어낸다는 점이다. 예를 들어 농구 슛 영상 하나를 보여주면, 시스템이 공의 크기를 바꾸거나 다양한 거리와 각도에서 쏘는 데이터를 스스로 생성한다. 이렇게 만들어진 다양한 데이터 덕분에 로봇은 원래 영상에 없던 상황에도 대처할 수 있게 된다.



눈 감고도 공 다루는 로봇... 비밀은 '몸의 감각'


두 번째 핵심 기술은 XMimic이다. 이것은 엑스젠이 만든 데이터로 로봇을 학습시키는 시스템이다. XMimic의 가장 흥미로운 특징은 두 가지 방식으로 작동한다는 점이다.

첫 번째는 NEP 방식이다. 이 방식에서는 카메라나 센서 없이 로봇 자체의 몸 감각만으로 동작한다. 사람으로 치면 눈을 감고도 손의 느낌만으로 공을 다루는 것과 같다. 로봇은 관절의 위치, 움직이는 속도, 관절에 가해지는 힘 등의 정보만으로 공이나 물체의 상태를 파악한다. 이 방식으로 농구 슛, 공 튀기기, 레이업, 심지어 속임수 동작을 섞은 복잡한 슛까지 해낸다. 카메라나 센서가 필요 없어서 배치가 간단하고 안정적이다.

두 번째는 MoCap 방식이다. 노이톰(Noitom)이라는 움직임 추적 시스템으로 공이나 물체의 위치를 실시간으로 파악한다. 이 방식은 날아오는 공을 받거나 사람과 계속 주고받는 동작에 필요하다. 연구진은 실제 환경에서 자주 발생하는 신호 끊김 현상까지 학습 과정에 반영했다. 덕분에 실제 사용할 때도 신호가 잠깐 끊겨도 로봇이 안정적으로 작동한다.



기존 방식보다 성공률 27배 높아... 단일 영상으로 10회 연속 패스


실험 결과는 놀라웠다. 농구공을 받아서 골대에 넣는 과제에서 휴먼엑스는 64.7퍼센트의 성공률을 기록했다. 이는 기존 최고 성능 방법인 HDMI의 2.4퍼센트보다 27배나 높은 수치다. 배드민턴에서는 90.6퍼센트, 화물 들어올리기에서는 96.3퍼센트의 성공률을 보였다.

실제 유니트리 G1(Unitree G1)이라는 휴머노이드 로봇으로 실험했을 때도 결과가 좋았다. 카메라 없이 몸 감각만으로 농구 슛 10번 중 8번 성공, 공 튀기기 10번 중 8번 성공, 복잡한 속임수 슛 10번 중 9번 성공했다.

움직임 추적 시스템을 사용한 과제는 더욱 인상적이었다. 사람과 농구공을 주고받는 동작을 10회 이상 연속으로 성공시켰다. 축구공 차서 주고받기는 14회 연속 성공했다. 각 기술을 배울 때 시범 영상을 단 한 편만 보여줬다는 점을 생각하면 놀라운 결과다.


단순히 따라하기만 하는 게 아니다... 스스로 판단하고 대응

휴먼엑스가 배운 기술은 단순히 영상을 그대로 따라하는 수준이 아니다. 연구진이 공개한 영상을 보면 로봇이 상황을 판단하고 대응하는 모습이 나온다. 물건을 들고 있을 때 사람이 강하게 밀어도 균형을 잡는다. 누군가 물건을 빼앗아서 바닥에 놓으면 로봇이 스스로 걸어가서 다시 집어든다.

격투 대응 실험에서는 더 재미있는 모습이 나타난다. 사람이 펀치 흉내만 내면 로봇은 가볍게 놀라는 반응만 보인다. 하지만 진짜 공격이 들어오면 제대로 막고 반격한다. 이는 로봇이 실시간으로 상황을 구분하고 적절히 대응한다는 뜻이다.

이런 적응 능력은 세 가지 방법으로 만들어진다. 첫째, 엑스젠이 다양한 데이터를 생성해서 여러 상황을 미리 경험하게 한다. 둘째, 학습할 때 로봇과 물체의 시작 위치를 매번 무작위로 바꿔서 더 많은 경우의 수를 연습시킨다. 셋째, 상호작용을 성공시키는 것을 최우선 목표로 설정해서 단순히 동작만 흉내내는 것을 방지한다.



작업마다 따로 프로그래밍 필요 없어... 하나의 학습 방식으로 모든 동작 습득

기존 로봇 학습 방식의 큰 문제는 각 작업마다 복잡한 보상 설계를 일일이 해야 한다는 점이었다. 예를 들어 농구를 가르치려면 '공을 이렇게 잡으면 몇 점', '골대에 이만큼 가까이 가면 몇 점' 같은 규칙을 세세하게 정해줘야 했다. 휴먼엑스는 이 문제를 하나의 통합된 학습 방식으로 해결했다.

이 시스템은 몸 동작, 물체 움직임, 몸과 물체의 상대적 위치, 어느 순간에 접촉하는지, 동작이 부드러운지 등을 모두 고려하는 단일 평가 방식을 사용한다. 특히 AMP라는 기술을 포함해 동작이 자연스러운지도 평가한다. 이 평가 방식은 농구부터 축구, 배드민턴, 물건 옮기기, 격투 대응까지 모든 작업에 똑같이 적용된다.

연구진은 선생-학생 방식의 2단계 학습 구조를 사용했다. 먼저 모든 정보를 볼 수 있는 '선생 로봇'을 PPO라는 학습 방법으로 훈련시킨다. 그 다음 선생 로봇의 지식을 실제 로봇에서 사용 가능한 '학생 로봇'에게 전달한다. 학생 로봇은 선생의 지식을 물려받되, 실제 환경에서 얻을 수 있는 제한된 정보만으로 작동한다.

여러 동작 패턴을 배울 때 이 방식이 특히 효과적이다. 축구공 차기와 배드민턴공 치기 실험에서 각각 3가지 다른 동작 패턴을 학습시켰다. 선생-학생 구조를 사용하니 성공률이 축구는 74.2퍼센트에서 93.1퍼센트로, 배드민턴은 52.4퍼센트에서 84.3퍼센트로 크게 올랐다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 영상 하나로 어떻게 여러 상황에 대응할 수 있나요?

A. 엑스젠 시스템이 한 편의 영상에서 물체의 크기, 위치, 움직임을 자동으로 바꿔가며 수십 가지 연습 데이터를 만들어냅니다. 농구 슛 영상 하나로 여러 거리와 각도의 슛 데이터를 생성하는 식입니다. 또한 학습할 때 로봇과 물체의 시작 상태를 매번 다르게 하고, 물체의 무게나 탄성 같은 물리적 특성도 무작위로 바꿔가며 다양한 상황을 연습시킵니다.

Q2. 카메라 없이 로봇이 공을 다룰 수 있는 원리는 무엇인가요?

A. 로봇은 관절의 위치, 움직이는 속도, 관절에 가해지는 힘 등의 정보로 외부에서 오는 힘을 추정할 수 있습니다. 사람이 눈을 감고도 손의 감각만으로 물건을 다루는 것과 같은 원리입니다. 로봇 물리 법칙에 따르면, 명령한 힘과 실제 관절 움직임의 차이로 외부 접촉을 계산할 수 있습니다. 휴먼엑스는 이런 정보들을 학습 과정에 포함시켜 로봇이 몸 감각만으로도 공이나 물체를 다룰 수 있게 했습니다.

Q3. 이 기술이 실용화되면 어떤 분야에 쓰일 수 있나요?

A. 작업마다 복잡한 프로그래밍이 필요 없고 시범 영상 하나면 되기 때문에 활용 범위가 넓습니다. 공장의 조립 작업, 물류 창고의 물건 옮기기, 재활 치료 보조, 서비스 로봇의 물건 전달 등에 빠르게 적용될 수 있습니다. 특히 새로운 작업을 가르칠 때마다 코딩할 필요 없이 시범만 보여주면 되기 때문에 로봇 활용이 훨씬 쉬워질 것으로 기대됩니다.



기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논문명: HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 며느리, 사위로 만나면 부담스러울 것 같은 스타는? 운영자 26/03/09 - -
2183 "회의록보다 AI한테 묻는 게 더 편해진 직장인들" aimatters갤로그로 이동합니다. 11:37 1 0
2182 텍스트·이미지·영상·음성을 단일 공간 처리…구글, 제미나이 임베딩 2 출시 aimatters갤로그로 이동합니다. 11:37 1 0
2181 "엔비디아 없어도 돼"…메타(Meta), 2년 안에 자체 AI 칩 4종 쏟아낸다 aimatters갤로그로 이동합니다. 11:37 1 0
2180 메타(Meta), '몰트북(Moltbook)' 전격 인수 aimatters갤로그로 이동합니다. 11:37 1 0
2179 FIFA, 2026 월드컵 AI로 심판·판정·운영 싹 바꾼다 aimatters갤로그로 이동합니다. 11:37 1 0
2178 변호사 5만 명이 선택한 AI 법률 플랫폼, 기업가치 6조 원 돌파 aimatters갤로그로 이동합니다. 11:37 1 0
2177 AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다 aimatters갤로그로 이동합니다. 03.12 11 0
2176 AI가 세계 최고 물리올림피아드에서 처음으로 만점을 받았다 aimatters갤로그로 이동합니다. 03.12 13 0
2175 엔비디아, AI 에이전트용 모델 '네모트론 3 슈퍼' 공개…속도 5배↑ 비용은 줄였다 aimatters갤로그로 이동합니다. 03.12 10 0
2174 "이보다 쉬운 설명, 이보다 깊은 통찰은 없다"… 박태웅의 AI 강의 2026, AI 격변의 현재를 해부하다 aimatters갤로그로 이동합니다. 03.12 10 0
2173 글로벌 기업 83%가 지속가능성 투자를 늘리는 진짜 이유는 AI였다 aimatters갤로그로 이동합니다. 03.12 9 0
2172 "AI 때문에 자를 수밖에 없었다"…아틀라시안, 직원 1,600명 해고 aimatters갤로그로 이동합니다. 03.12 15 0
2171 챗GPT보다 4년 먼저 에이전트 출시…젠데스크, AI 고객 서비스 스타트업 포어소트 인수 aimatters갤로그로 이동합니다. 03.12 8 0
2170 벤 애플렉의 AI 영화 후반 작업 스타트업, 넷플릭스가 6억 달러에 샀다 aimatters갤로그로 이동합니다. 03.12 13 0
2169 미국 10대 64%가 AI 챗봇을 쓰는 시대, 부모 10명 중 3명은 사실조차 모른다 [3] aimatters갤로그로 이동합니다. 03.11 1306 4
2168 챗GPT가 스택 오버플로를 오염시키고 있다, AI가 AI를 잡아낸다 aimatters갤로그로 이동합니다. 03.11 50 0
2167 AI가 해커보다 먼저 움직인다, CISO들이 선택한 생존 전략 aimatters갤로그로 이동합니다. 03.11 31 0
2166 아마존, 헬스케어 AI 어시스턴트 전면 개방…프라임 회원 아니어도 무료 이용 aimatters갤로그로 이동합니다. 03.11 24 0
2165 포켓몬 고가 배달 로봇의 눈이 됐다…나이언틱의 AI 지도 혁명 aimatters갤로그로 이동합니다. 03.11 35 0
2164 "답할까, 거절할까, 추측할까"…애피어, AI 의사결정 신뢰성 높이는 연구 발표 aimatters갤로그로 이동합니다. 03.11 25 0
2163 "이 노래, AI가 만들었나요?"…애플 뮤직, AI 생성 음악 표시 태그 도입 [1] aimatters갤로그로 이동합니다. 03.11 1041 3
2162 벚꽃 사진 한 장으로 개화일 뚝딱…일본 날씨 앱, AI 벚꽃 개화 예측 서비스 시작 aimatters갤로그로 이동합니다. 03.11 35 0
2161 AI 도구 '에코넥스트', 심장 전문의보다 정확하게 구조적 심장질환 잡아냈다 aimatters갤로그로 이동합니다. 03.11 22 0
2160 "병원∙약국 최저가 AI가 챙긴다"…CVS 헬스, 구글 클라우드와 AI 헬스케어 플랫폼 출시 aimatters갤로그로 이동합니다. 03.11 29 0
2159 AI가 만든 영상인지 모르고 봤다, 소라 사용자 254명이 털어놓은 충격 반응 [5] aimatters갤로그로 이동합니다. 03.10 2513 3
2158 사진 한 장으로 내 얼굴·손동작까지 살아 움직이는 AI 영상 만든다... 클링-모션 컨트롤 출시 aimatters갤로그로 이동합니다. 03.10 68 0
2157 챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다 aimatters갤로그로 이동합니다. 03.10 59 0
2156 "경쟁사도 우리 편"…오픈AI·구글 직원들, 앤트로픽 국방부 소송 공개 지지 aimatters갤로그로 이동합니다. 03.10 45 0
2155 AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시 [3] aimatters갤로그로 이동합니다. 03.10 1253 3
2154 오픈AI, AI 보안 스타트업 프롬프트푸 인수…에이전트 보안 강화 나선다 aimatters갤로그로 이동합니다. 03.10 49 0
2153 "3시간 경기보다 15초의 순간"…AI가 야구 콘텐츠 판을 바꾼다 aimatters갤로그로 이동합니다. 03.09 1086 1
2152 "상상이 현실이 된다"…PixAI, 차세대 AI 이미지 모델 '츠바키.2' 공개 [1] aimatters갤로그로 이동합니다. 03.09 1268 2
2151 35만원 싸게 살 수 있다…에이서, 인텔 팬서레이크 탑재 'AI 노트북' 예약 판매 시작 aimatters갤로그로 이동합니다. 03.09 1245 0
2150 "온 디바이스 AI폰의 종결자"…갤럭시 S26, 이제는 'AI 에이전트폰'이다 aimatters갤로그로 이동합니다. 03.09 139 0
2149 AI 에이전트 스킬 마켓플레이스의 민낯, 4만 개 분석하니 절반이 중복이고 9%는 위험했다 aimatters갤로그로 이동합니다. 03.09 34 0
2148 구글 나노 바나나가 만든 가짜 흉부 X선으로 폐렴을 92% 정확도로 잡아냈다 aimatters갤로그로 이동합니다. 03.09 98 0
2147 AI 이미지 생성의 공식이 나왔다, 구조화된 프롬프트가 일관성을 95%까지 끌어올린다 aimatters갤로그로 이동합니다. 03.09 56 0
2146 앤트로픽이 '적'에서 '동반자'로…소프트웨어 주가 반등 aimatters갤로그로 이동합니다. 03.09 38 0
2145 "대량 해고? 그런 건 없다"…세일즈포스 CEO, AI발 고용 공포에 선 그었다 aimatters갤로그로 이동합니다. 03.09 35 0
2144 "내 사랑하는 큐웬, 안녕"…알리바바 AI 핵심 인재 연쇄 이탈 aimatters갤로그로 이동합니다. 03.09 42 0
2143 AI 비용 효율 최고는 앤트로픽...비결은 이중 하이퍼스케일러, 오픈AI는 엔비디아 칩만 써 aimatters갤로그로 이동합니다. 03.09 29 0
2142 의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕... aimatters갤로그로 이동합니다. 03.09 48 0
2141 집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5] aimatters갤로그로 이동합니다. 03.06 1758 1
2140 AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀 aimatters갤로그로 이동합니다. 03.06 40 0
2139 AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험 aimatters갤로그로 이동합니다. 03.06 50 0
2138 "추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2] aimatters갤로그로 이동합니다. 03.06 1593 0
2137 "안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다 aimatters갤로그로 이동합니다. 03.06 21 0
2136 "IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다 aimatters갤로그로 이동합니다. 03.06 38 0
2135 직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면 aimatters갤로그로 이동합니다. 03.06 126 1
2134 "오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파 aimatters갤로그로 이동합니다. 03.05 55 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2