드론 AI, 혼자 날 땐 천재인데 협력은 바보... 최신 모델도 '팀워크' 취약

aimatters

2025.11.19 11:47:51

조회 537 추천 0 댓글 1

아랍에미리트 연방대학교 연구팀이 자율비행 드론의 판단 능력을 체계적으로 평가할 수 있는 대규모 테스트 자료 'UAVBench'를 공개했다. 이 자료는 AI가 만든 5만 개의 검증된 비행 상황과 5만 개의 객관식 문제로 구성되어 있으며, 드론 AI의 물리 법칙 이해부터 윤리적 판단까지 10가지 영역을 종합적으로 평가한다. GPT-5, ChatGPT 4o, Gemini 2.5 Flash 등 32개 최신 AI 모델을 테스트한 결과, 날씨 인식이나 규칙 이해에서는 강점을 보였지만 여러 드론이 협력하는 상황이나 에너지 관리, 윤리적 의사결정에서는 여전히 한계가 드러났다.

AI가 만든 5만 개 비행 상황... 다단계 검증으로 현실적 상황만 선별된다

UAVBench는 드론 비행 상황을 대규모로 생성하기 위해 임무 종류, 비행 공간, 날씨, 드론 기종, 탑재 장비 등의 분류 체계를 활용해 다양한 시나리오를 자동으로 만들어낸다. 각 시나리오 데이터에는 시뮬레이션 조건, 드론 설정, 환경 요소, 임무 목표, 안전 제약 등이 구조화되어 포함된다.

드론 설정 단계에서는 에너지 소비 계산이 중심 역할을 한다. 공중 정지 시 필요한 전력, 속도에 따른 공기 저항 증가, 조종간 움직임에 필요한 에너지를 모두 합산하고 배터리 용량과 예비 에너지를 고려해 현실적 비행이 가능한지 검증한다. 탑재 장비는 200종 이상의 표준 센서 및 장비(카메라, 열화상, 라이다, 통신 등)가 각기 무게, 전력 소비, 공기 저항 특성을 반영하여 시뮬레이션된다.

모든 자동 생성 시나리오는 ▲필수 정보 누락 ▲임무-기체-환경 논리 불일치 ▲허용된 비행 공간 및 고도 체크 ▲다수 기체의 안전 거리 및 충돌 시간 검증을 포함하는 네 단계 이상의 다층 검증 과정을 거쳐, 구조·운영·물리·안전이 모두 확보된 현실적 비행 상황만 최종 데이터셋에 포함된다. 검증된 상황에는 위험 수준(0~3단계)과 안전 범주 태그(날씨, 항법, 에너지, 충돌 회피 등)가 자동으로 붙는다.

10가지 사고 유형으로 드론 AI 능력 다각도 평가... 윤리 문제는 7지선다

UAVBench_MCQ는 검증된 상황을 10가지 사고 유형의 5만 개 객관식 문제로 변환한 평가 자료다. 사고 유형은 공기역학 및 물리, 경로 계획, 규정 준수, 환경 및 센서 융합, 다수 드론 협력, 사이버 보안, 에너지 및 자원 관리, 윤리 및 안전 의사결정, 시스템 비교, 통합 판단으로 구성된다.

문제 생성 과정에서는 엄격한 제약이 적용된다. 모든 질문은 원본 상황 데이터에 포함된 정보만을 근거로 하며, 질문 길이는 28단어 이하, 선택지 길이는 14단어 이하로 제한된다. 윤리 및 안전 의사결정 평가의 경우 7개 선택지를 사용해 인간 안전을 최우선으로 하는 윤리적 선택을 명시적으로 포함한다. 나머지 사고 유형은 일반적으로 4지선다 형식을 따른다.

데이터 통계를 보면 규정 준수 문제가 6,363개로 가장 많고, 에너지 관리가 5,549개, 환경 및 센서 융합이 5,259개 순이다. 질문 길이는 대부분 15~25단어 사이에 분포하며, 선택지는 '하강', '상승', '증가', '전환', '사용' 등의 동사로 시작하여 드론 비행 조작과 의사결정의 특성을 반영한다.

중국 AI 모델이 종합 1위... 하지만 윤리와 협력은 모든 모델이 어려워해

32개 AI 모델 평가 결과, 중국 알리바바의 Qwen3 235B 모델이 평균 정확도 83.5%, 균형 점수 0.74로 1위를 차지했다. 이어 OpenAI의 ChatGPT 4o(80.3%, 0.68), GPT-5 Chat(80.2%, 0.68), Qwen3 Max(79.8%, 0.68) 순으로 나타났다.

인식 및 물리 세계 판단 부문에서 Qwen3 235B는 공기역학 82.5%, 환경 센서 융합 97.0%로 평균 89.8%를 기록했다. 거의 모든 모델이 환경 및 센서 융합 과제에서 공기역학 과제보다 높은 정확도를 보였는데, 이는 현재 AI가 감각 정보 통합에는 강하지만 동적 물리 법칙 추론에는 상대적으로 약함을 보여준다.

계획 및 자원 판단 부문에서 Qwen3 235B는 경로 계획 81.5%, 다수 드론 협력 76.5%, 에너지 관리 71.5%로 평균 76.5%를 달성했으나, 최고 성능 모델도 다수 드론 협력과 에너지 관리에서는 80%를 넘지 못했다. 이는 여러 드론이 함께 작동하며 에너지를 효율적으로 쓰는 판단이 여전히 어렵다는 것을 보여준다.

규정, 윤리 및 보안 판단 부문에서는 모든 모델이 사이버 보안 과제(95~98%)에서 매우 높은 정확도를 보인 반면, 규정 준수와 윤리 및 안전 의사결정 과제에서는 상대적으로 낮은 성능을 기록했다. Qwen3 235B는 규정 준수 76.0%, 윤리 의사결정 75.5%, 사이버 보안 96.5%로 평균 82.7%를 달성했다. 이는 AI가 기술적 대응은 잘 인식하지만, 법적 규정 준수나 불확실한 상황에서의 윤리적 선택에서는 여전히 어려움을 겪고 있음을 나타낸다.

시스템 비교 및 통합 판단 부문에서 Qwen3 235B는 시스템 비교 95.5%, 통합 판단 83.0%로 평균 89.3%를 기록했으나, 서로 다른 판단 영역을 하나로 통합하는 것은 여전히 어려운 과제로 남아 있다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. UAVBench는 어떤 종류의 드론 임무를 평가할 수 있나요?

A: UAVBench는 시설물 점검, 배송, 정찰, 수색 구조, 여러 대 협력, 안전 중요 상황, 화재·유해물질 대응, 해양 작전 등 다양한 임무를 포함합니다. 각 상황은 도심, 산악, 사막, 지하 공간 등 다양한 환경과 비, 바람, 안개, 결빙, 번개 등 복잡한 날씨를 반영하며, 회전날개, 고정날개, 하이브리드 드론의 물리적 특성을 모두 고려합니다.

Q2. 왜 대부분의 AI 모델이 다수 드론 협력과 윤리 판단에서 낮은 점수를 받았나요?

A: 여러 대의 드론이 함께 작동할 때는 서로 부딪히지 않으면서 임무를 나눠야 하므로 복잡한 협력 판단이 필요합니다. 윤리 판단은 인간 안전, 법적 규정, 자원 제약 등 여러 가치를 동시에 고려해야 합니다. 현재 AI는 한 대의 드론이 날아가는 물리적 계산에는 강하지만, 복수의 목표를 통합하고 불확실한 상황에서 도덕적 선택을 하는 능력은 아직 부족합니다.

Q3. 균형 점수는 일반 정확도와 무엇이 다른가요?

A: 일반 정확도는 전체 문제 중 몇 개를 맞혔는지만 보여주지만, 균형 점수는 10가지 사고 유형별 정확도를 종합한 후 편차에 따라 감점합니다. 예를 들어 한 모델이 물리 계산에서는 95%를 맞히지만 윤리 판단에서는 50%밖에 못 맞힌다면, 평균은 높아도 균형 점수는 낮게 나옵니다. 안전이 중요한 드론 AI는 특정 영역에 치우치지 않고 모든 상황에서 고르게 잘 판단해야 하므로, 균형 점수가 더 신뢰할 수 있는 지표가 됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

고정닉 0

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	결혼이 오히려 커리어에 손해였던 것 같은 스타는?	운영자	26/03/23	-	-
2282	코딩 몰라도 내 챗봇 뚝딱… 제미나이·클로드·챗GPT 한 권에 담았다	aimatters	03.27	62	0
2281	시리에서 챗GPT∙클로드∙제미나이 쓴다...iOS 27에서 AI 어시스턴트 개방 [2]	aimatters	03.27	928	1
2280	기존보다 50배 빠른 AI 영상 화질 개선 기술이 실시간 처리 시대를 열다 [2]	aimatters	03.27	550	0
2279	AI가 단백질과 약물의 궁합을 예측해 신약 개발 판도를 바꾼다	aimatters	03.27	41	0
2278	유튜브 영상 5만개 보고 가위질 배운 AI 로봇	aimatters	03.27	53	0
2277	앤트로픽 클로드, 마우스·키보드까지 직접 조종…'컴퓨터 유즈' 기능 공개	aimatters	03.27	51	0
2276	제미나이, 타 AI 챗 히스토리 업로드 기능으로 챗GPT에서 이사할 수 있는 기능 출시	aimatters	03.27	43	0
2275	쇼피파이, AI 에이전트 스토어프런트 출시...챗GPT에서 즉시 구매 가능	aimatters	03.27	45	0
2274	유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다	aimatters	03.26	61	0
2273	유럽은 AI 강국인데 아무도 모른다, 그 이유가 충격적이다	aimatters	03.26	62	0
2272	AI 패권 전쟁의 진짜 승부처는 알고리즘이 아닌 반도체 공급망	aimatters	03.26	58	0
2271	AI가 기업 리스크 관리의 판도를 바꾼다, HBR이 밝힌 GRC 혁신의 실체	aimatters	03.26	62	0
2270	EBS도 AI 물들었다…2026년 봄, 죽은 철학자가 말을 걸어온다	aimatters	03.26	58	0
2269	"기획부터 개발까지 90% 단축"…원티드랩, AI 에이전트용 디자인 시스템 '몽타주' 공개	aimatters	03.26	56	0
2268	애플 시리, 구글 제미나이로 탈바꿈 - iOS 26.5에 탑재, WWDC서 공식 공개 예정	aimatters	03.26	56	0
2267	챗GPT 쇼핑 기능 전면 개편 - 인스턴트 결제 포기하고 상품 탐색에 집중	aimatters	03.26	55	0
2266	구글 제미나이, 다크웹 하루 1000만 건 분석... AI 위협 인텔리전스 서비스 출시	aimatters	03.26	62	0
2265	클로드, 전 세계 동시 장애 발생 - 앤트로픽, 수시간 만에 복구 완료	aimatters	03.26	56	0
2264	구글, AI 모델 압축 기술 터보퀀트 공개 - 성능 손실 없이 모델 크기 절반으로	aimatters	03.26	55	0
2263	ARM, AGI 시대 겨냥한 첫 자체 AI 칩 공개 - 데이터센터용 CPU·GPU 직접 설계	aimatters	03.26	53	0
2262	원고 넣으면 3분 만에 책 한 권 뚝딱…루미너리북스, AI가 내지 디자인까지 자동화	aimatters	03.26	56	0
2261	8만 명이 AI에게 원하는 것은 더 나은 삶이었다	aimatters	03.25	21	0
2260	AI가 일자리를 빼앗는다는 말, 데이터로 따져보니 범인은 따로 있었다 [3]	aimatters	03.25	1021	0
2259	AI 가전 쓰고 싶은데 왜 점점 더 불안해질까, 소비자 심리의 역전	aimatters	03.25	20	0
2258	오픈AI, 소라(Sora) 비디오 앱 종료...생성형 AI 전략 선회	aimatters	03.25	23	0
2257	"AI야, 네가 할 수 있어?" 묻고 나서 답한다… 애피어, '역량 캘리브레이션' 기술 공개	aimatters	03.25	20	0
2256	오픈AI 재단, 생명공학 분야 10억 달러 규모 자선 프로그램 발표	aimatters	03.25	12	0
2255	갭, 구글 제미나이 내 직접 결제 기능 통합...AI 쇼핑 시대 개막	aimatters	03.25	19	0
2254	TV에 질문하고 학습한다… 구글 TV, 제미나이 AI로 스포츠·뉴스·교육 강화	aimatters	03.25	12	0
2253	퍼플렉시티 AI 브라우저 '코멧', 드디어 아이폰 상륙…구글 크롬과 본격 맞대결	aimatters	03.24	46	0
2252	구글, AI로 뉴스 헤드라인 몰래 바꾼다…언론사 "서점이 책 표지를 뜯어내는 것"	aimatters	03.24	19	0
2251	AI가 인간보다 똑똑하게 초전도체 비밀을 풀었다	aimatters	03.24	33	0
2250	AI에게 정확히 원하는 것을 얻는 법, 기자처럼 질문하면 된다	aimatters	03.24	28	0
2249	AI 고객 상담, 문제는 해결했는데 왜 고객은 떠날까	aimatters	03.24	21	0
2248	버니 샌더스 vs. 클로드, 샌더스가 AI의 아첨 성향을 이끌어내다	aimatters	03.24	24	0
2247	앤트로픽, 클로드 디스패치 출시... 폰에서 메시지 보내면 맥이 원격 AI 작업한다	aimatters	03.24	44	0
2246	"이번엔 진짜" 애플, WWDC 2026 개최 일정 발표... 'AI 기술 대폭 강화' 예고	aimatters	03.24	16	0
2245	일론 머스크, 테라팹 공개... AI∙자동차∙로봇용 저가 칩부터 우주선용 칩까지 만든다	aimatters	03.24	35	0
2244	앤트로픽, 법정에서 국방부의 주장 반박... “감시 역할 거부한다” 선언	aimatters	03.24	19	0
2243	책상 위에 올라온 AI 슈퍼컴퓨터…델, 워크스테이션 신제품 9종 공개 [5]	aimatters	03.23	1761	3
2242	AI 에이전트가 마케터 대신 일한다… 애피어, '에이전틱 AI 세미나' 성료	aimatters	03.23	59	0
2241	오픈클로(OpenClaw) 업데이트... GPT-5.4 지원·메모리 핫스와핑으로 '에이전트 OS' 시대 열다	aimatters	03.23	66	0
2240	"프롬프트 한 줄로 앱 완성"…구글, AI 스튜디오에 풀스택 바이브 코딩 탑재	aimatters	03.23	38	0
2239	미 국방부 "앤트로픽 클로드 6개월 내 대체 가능" 자신… 현장 군인들은 반발	aimatters	03.23	77	0
2238	오픈AI, 챗GPT·코덱스·아틀라스 합친 데스크톱 슈퍼앱 개발 나선다	aimatters	03.23	69	0
2237	게임 동반자 AI NPC가 상황에 맞게 도와준다… 스퀘어 에닉스, 드래곤 퀘스트 X에 제미나이 통합	aimatters	03.23	32	0
2236	퍼플렉시티, 애플 헬스 데이터로 개인 맞춤 AI 건강 상담 시작	aimatters	03.23	26	0
2235	토큰 100만개당 0.2달러에 불과... 오픈AI, GPT-5.4 mini·nano 공개 [7]	aimatters	03.23	816	1
2234	오픈AI, 연말까지 직원 수 8,000명으로 두 배 확대… 앤트로픽 추격에 맞서 공격적 채용	aimatters	03.23	26	0
2233	로봇 손끝에서 발견된 '촉각의 법칙', AI가 밝혀낸 접촉의 두 가지 원리	aimatters	03.23	24	0