디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀

aimatters갤로그로 이동합니다. 2026.03.06 11:57:31
조회 63 추천 0 댓글 0


어떤 학생은 시험지를 한 번 훑고 바로 제출한다. 또 다른 학생은 풀이 과정을 천천히 되짚으며 틀린 부분을 고쳐 나간다. 당연히 후자가 더 좋은 점수를 받는다. 카네기멜론대학교(Carnegie Mellon University)와 바르샤바대학교(University of Warsaw) 공동 연구팀이 2026년 3월 공개한 논문은 AI도 이 두 번째 학생처럼 행동하도록 만드는 방법을 규명했다. '플로우 매칭(Flow Matching)'이라는 기법을 강화학습(Reinforcement Learning)에 적용하면 AI가 기존보다 최종 성능이 2배 높고 학습 속도는 5배 빠르다는 것이다. 더 놀라운 건 그 이유가 지금껏 학계가 믿어왔던 설명과 전혀 달랐다는 점이다.



AI가 공부하다 갑자기 멍청해지는 이유

강화학습은 AI가 시행착오를 반복하며 스스로 최적의 행동을 터득하는 방식이다. 로봇이 걷는 법을 익히거나, 게임에서 전략을 배우거나, 자율주행차가 도로 상황에 적응하는 것이 모두 이 방식으로 이루어진다. 이때 AI의 판단을 평가하는 역할을 맡은 부분을 '비평가(Critic)'라고 부른다. 비평가는 AI가 어떤 행동을 했을 때 미래에 얼마나 좋은 결과를 얻을 수 있는지 점수를 매긴다.

그런데 기존의 '단일 구조 비평가(Monolithic Critic)'에는 심각한 문제가 있다. 학습이 거듭될수록 오히려 성능이 떨어지는 현상이 나타나는 것이다. 연구팀은 이를 '가소성 상실(Loss of Plasticity)'이라고 부른다. 가소성이란 AI가 새로운 정보를 유연하게 흡수하는 능력을 뜻한다. 마치 오래된 칠판처럼, 새 내용을 쓰려면 예전 내용이 지워져야 하는데 그 과정에서 중요한 것들이 함께 사라져버리는 것이다. 논문의 서론에 따르면 이 현상은 목표값이 계속 바뀌는 'TD 학습(Temporal Difference Learning)' 환경에서 특히 두드러진다. AI가 미래 보상을 예측하며 학습하는 핵심 메커니즘인 TD 학습은, 목표 자체가 움직이는 탓에 AI 내부 표현이 불안정해진다는 것이다.



정답을 한 번에 내놓지 않고 조금씩 다듬는 방식의 등장

플로우 매칭 비평가는 이 문제를 완전히 다른 방식으로 접근한다. 핵심은 '반복 계산(Iterative Computation)'이다. 기존 비평가가 입력값을 받아 단번에 점수를 출력한다면, 플로우 매칭 비평가는 처음의 불확실한 추정에서 출발해 여러 단계를 거치며 점진적으로 답을 다듬는다. 연구팀은 이 과정에서 초기 단계의 오류가 이후 단계를 거치며 자동으로 교정된다는 사실을 발견했고, 이를 '테스트 시점 복구(Test-time Recovery)'라고 이름 붙였다.

구체적으로 설명하면 이렇다. 플로우 매칭 비평가는 '속도장(Velocity Field)'이라는 개념을 학습한다. AI는 처음에 무작위에 가까운 초기값에서 출발해, 여러 번의 적분(Integration) 계산을 거치며 최종 예측값에 도달한다. 이 경로 전체를 훈련 단계에서 촘촘하게 지도 감독(Dense Supervision)하기 때문에, 초기에 오류가 생기더라도 이후 단계에서 수정이 가능하다. 논문 5장의 이론 분석에 따르면 통합 단계 수가 늘어날수록 오류 감쇠율이 단계 수의 음의 거듭제곱에 비례해 줄어든다. 즉 단계를 많이 밟을수록 초기 실수의 영향이 기하급수적으로 줄어드는 것이다.

논문의 실험 결과는 이를 직접 증명한다. 연구팀은 일부러 초기 통합 단계에 낡은 정보를 주입하는 실험을 했다. 놀랍게도 플로우 매칭 비평가는 처음 50%의 단계에서 낡은 정보를 사용했음에도 오히려 성능이 더 좋거나 비슷하게 유지됐다. 반면 기존 단일 구조 비평가는 이런 개입에 즉시 성능이 급락했다.



분포를 배우기 때문이라는 기존 통설은 틀렸다

플로우 매칭이 강화학습에 효과적이라는 사실은 이미 알려져 있었다. 그런데 그 이유에 대해 학계는 오랫동안 잘못된 설명을 믿어왔다. 많은 선행 연구들은 플로우 매칭이 단순히 평균값 하나가 아니라 보상이 나타날 수 있는 전체 확률 분포를 학습하기 때문에 효과적이라고 주장했다. 이를 '분포 강화학습(Distributional RL)'이라고 부른다.

연구팀은 이 가설을 직접 검증하기 위해 통제 실험을 설계했다. 플로우 매칭 구조는 동일하게 유지하되, 분포를 명시적으로 학습하는 방식과 평균값만 학습하는 방식을 비교한 것이다. 결과는 예상을 뒤집었다. 분포를 명시적으로 학습하는 방식이 오히려 성능을 떨어뜨렸다. 연구팀이 floq라고 이름 붙인 플로우 매칭 비평가 방식은 평균값만 목표로 삼으면서도 일관되게 더 나은 성능을 보였다. 논문 4장은 이 결과를 바탕으로 분포 강화학습은 플로우 매칭 성공의 이유가 아니라고 결론 내린다. 진짜 이유는 분포 모델링이 아니라, 통합 경로를 따라 속도장을 촘촘하게 훈련하는 구조 자체에 있었다.



뇌를 얼려도 망가지지 않는 AI의 유연한 기억

플로우 매칭의 두 번째 강점은 '가소성 보존(Plasticity Preservation)'이다. 논문 6장의 이론 분석은 이를 수학적으로 증명한다. 단일 구조 비평가는 새로운 목표값을 학습하려면 반드시 기존에 저장된 특징(Feature)을 덮어써야 한다. 반면 플로우 매칭 비평가는 특징 자체를 바꾸지 않고도 '이득 매개변수(Gain Parameter)'를 조정하는 것만으로 새로운 목표에 적응할 수 있다. 기존에 배운 내용은 그대로 두고, 각 내용에 부여하는 가중치만 재조정하는 방식이다.

연구팀은 극단적인 실험으로 이를 확인했다. AI 신경망의 초기 층들을 완전히 얼려버린 뒤 학습을 계속하는 것이다. 기존 단일 구조 비평가는 레즈넷(ResNet) 구조나 트랜스포머(Transformer) 구조를 써도 거의 예외 없이 성능이 0에 가깝게 붕괴했다. 반면 플로우 매칭 비평가는 층이 얼어붙은 상태에서도 학습을 이어가며 거의 동일한 수준의 성능을 회복했다. 마치 기억의 특정 부분이 손상된 상태에서도 다른 회로를 활용해 기능을 유지하는 뇌처럼, 플로우 매칭 비평가는 이미 학습된 특징들을 다시 조합해 새로운 문제에 대응할 수 있었다.



극한의 학습 환경에서 검증된 5배 빠른 효율

연구팀은 이 장점이 실제 학습 성능으로 이어지는지 검증하기 위해 높은 업데이트-데이터 비율(High UTD, Update-to-Data ratio) 환경을 테스트했다. 이는 새로운 데이터가 적게 들어오는데 학습 업데이트는 매우 자주 해야 하는, 가소성 상실이 가장 극심하게 나타나는 조건이다. 로봇 제어나 자율주행처럼 실시간으로 경험을 쌓으면서 빠르게 학습해야 하는 현실 환경과 유사하다.

실험 결과 floq는 UTD 비율이 32, 64, 128로 높아질수록 기존 단일 구조 비평가와의 격차가 벌어졌다. 많은 환경에서 최종 성능은 약 2배, 동일한 성능에 도달하는 데 필요한 학습 데이터량은 약 5배 적게 들었다. 더욱이 기존 비평가가 높은 UTD 환경에서 학습이 불안정해지거나 성능이 갑자기 무너지는 현상을 보인 반면, 플로우 매칭 비평가는 UTD 128이라는 극한 조건에서도 안정적인 학습 곡선을 유지했다. 논문은 마지막으로 이 원리가 대형 언어 모델(LLM)의 연쇄 추론(Chain-of-Thought)과 유사하다고 지적한다. LLM이 단번에 답을 내놓는 대신 여러 추론 단계를 밟을수록 정확도가 올라가는 것처럼, 플로우 매칭 비평가도 통합 단계가 늘어날수록 더 정교한 예측이 가능해진다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 플로우 매칭이 일반 사람들의 일상에서 쓰이는 AI를 어떻게 바꾸나요?

A. 플로우 매칭 기술은 AI가 새로운 환경에 더 빠르게, 더 안정적으로 적응하도록 만듭니다. 예를 들어 자율주행차가 처음 가는 도로에서 실수를 줄이거나, 의료 AI가 최신 임상 데이터를 반영해 진단 정확도를 빠르게 높이는 등 실생활 AI 서비스의 신뢰도와 반응 속도를 높이는 데 직접 기여합니다.

Q2. 가소성 상실이 왜 문제가 되나요?

A. AI가 새로운 것을 배우려면 기존에 저장된 정보를 덮어써야 하는 경우가 생깁니다. 이 과정이 반복되면 AI는 이전에 잘하던 것도 잊어버리고 현재 목표에만 과도하게 맞춰지게 됩니다. 마치 단기 기억만 남고 장기 기억이 사라지는 것처럼, 시간이 지날수록 오히려 전체 성능이 떨어지는 현상이 나타납니다.

Q3. 이 연구가 로봇이나 자율주행 같은 실제 기술에 얼마나 빨리 적용될 수 있나요?

A. 이번 연구는 이론적 증명과 실험을 모두 갖춘 기초 연구입니다. 현재 로봇 제어와 오프라인-온라인 혼합 강화학습 환경에서 이미 유의미한 성능 향상이 확인됐습니다. 다만 실제 제품에 탑재되려면 다양한 환경에서의 추가 검증과 공학적 최적화 과정이 필요합니다.



기사에 인용된 논문 원문은 arXiv에서확인할 수 있다.

논문명: What Does Flow Matching Bring To TD Learning?

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
이슈 [디시人터뷰] '쪼와요~ 쪼와요~’ 캐릭터에 생명을 불어넣는 성우 박시윤 운영자 26/04/17 - -
설문 메시지 읽씹 잘 할 것 같은 이미지의 스타는? 운영자 26/04/20 - -
2477 애플, iOS 27서 시리 전면 개편…구글 제미나이 기반 AI 챗봇으로 탈바꿈 [9]
aimatters갤로그로 이동합니다.
11:00 516 0
2476 로보락, 높이 7.95cm 초슬림 플래그십 로봇청소기 'S10 MaxV Slim' 출시…이중 문턱 8.8cm 통과
aimatters갤로그로 이동합니다.
11:00 9 0
2475 위로보틱스, 보행 보조 로봇 구독 서비스 'WIM 프리미엄' 출시…웨어러블 로봇의 'RaaS' 시대 열다
aimatters갤로그로 이동합니다.
11:00 4 0
2474 소니, NAB 2026서 방송·제작 혁신 솔루션 공개…'R 시리즈' 카메라·MOXELA 플랫폼 선봬
aimatters갤로그로 이동합니다.
11:00 7 0
2473 앤트로픽 기업가치 8,000억 달러 평가…연매출 300억 달러로 오픈AI 추월
aimatters갤로그로 이동합니다.
11:00 4 0
2472 MIT 테크놀로지 리뷰, 'AI 현재 10대 이슈' 첫 발표…AI 동반자·바이브 코딩 등 선정
aimatters갤로그로 이동합니다.
11:00 5 0
2471 구글 클라우드 넥스트 2026 D-2…제미나이를 클라우드 임베딩해 사용하는 에이전틱 AI 시대
aimatters갤로그로 이동합니다.
11:00 7 0
2470 NAB Show 2026 개막…AI, 미디어 제작 현장의 핵심 인프라로 자리잡다
aimatters갤로그로 이동합니다.
11:00 4 0
2469 EU AI 법, 채용 편향 감사 의무화 시행 105일 전…AI로 채용하면 인간 감사 받아야 한다
aimatters갤로그로 이동합니다.
11:00 4 0
2468 챗GPT로 답을 복붙해도 점수는 같았다, 단 한 가지만 빼고
aimatters갤로그로 이동합니다.
11:00 7 0
2467 챗GPT에 아이디어를 물으면 안 되는 이유, 독일 연구팀이 밝혔다
aimatters갤로그로 이동합니다.
11:00 8 0
2466 회사 코드에 AI가 쓴 코드가 몇 줄이나 있지 추적하는 기술이 나왔다
aimatters갤로그로 이동합니다.
11:00 6 0
2465 루마 AI·원더 프로젝트, AI 하이브리드 영화 제작사 '이노베이티브 드림스' 출범… 사람만 찍으면 배경 자동으로 입힌다
aimatters갤로그로 이동합니다.
04.17 28 0
2464 오픈AI, 생명과학 특화 AI 모델 'GPT-로잘린드' 출시… 신약 개발·유전체 연구 가속화
aimatters갤로그로 이동합니다.
04.17 66 0
2463 베이직인터내셔널, AI가 자녀 목소리로 어르신과 대화하는 '아우라보이스' 출시… 정신의학계와 시니어 돌봄 혁신
aimatters갤로그로 이동합니다.
04.17 17 0
2462 DJI, 1인치 센서 탑재 포켓 짐벌 카메라 'Osmo Pocket 4' 출시… 4K/240fps·14스톱 다이내믹 레인지
aimatters갤로그로 이동합니다.
04.17 36 0
2461 '타노스가 인류 절반을 없앤다면?' 넷플릭스팀 AI가 영상으로 답했다
aimatters갤로그로 이동합니다.
04.17 40 0
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
04.17 38 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
04.17 18 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
04.17 19 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란 [9]
aimatters갤로그로 이동합니다.
04.17 1502 11
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
04.17 20 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
04.17 38 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
04.17 24 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
04.17 33 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
04.17 31 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
04.17 38 1
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [13]
aimatters갤로그로 이동합니다.
04.17 1573 9
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 20 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 32 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 99 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 29 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 60 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 41 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 26 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 25 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 19 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 19 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 865 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [13]
aimatters갤로그로 이동합니다.
04.16 2511 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 28 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 36 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 38 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 20 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 25 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 60 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 21 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 30 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 29 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 40 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2