"나는 로봇이 아닙니다"가 무너지다, AI가 캡차를 83.9%까지 풀어냈다

aimatters · 2026.04.22 19:00:05

"나는 로봇이 아닙니다"를 클릭하게 하고, 신호등을 고르게 하고, 바둑돌 패턴을 맞추게 만드는 캡차(CAPTCHA)는 인간과 봇을 구별하려고 설계된 보안 장치다. 그런데 그 장치를 AI가 직접 풀기 시작했다. 컬럼비아 대학교(Columbia University) 컴퓨터과학과 연구팀이 2025년 11월 발표한 논문에 따르면, 단계적 추론 과정을 밟는 AI 에이전트가 7가지 유형의 캡차에서 평균 83.9%의 정확도를 달성했다. 캡차가 AI를 막기 위해 설계됐다는 전제가 흔들리고 있다.

캡차가 AI를 막는다는 전제의 균열

캡차(CAPTCHA)란 "완전 자동화된 공개 튜링 테스트(Completely Automated Public Turing Test to tell Computers and Humans Apart)"의 약자로, 사람은 풀 수 있지만 기계는 풀기 어려운 문제를 제시해 봇을 걸러내는 기술이다. 초창기 캡차는 흐릿하게 왜곡된 텍스트를 읽게 했지만, 컴퓨터 비전 기술이 발전하면서 기계도 이를 해독하게 되자, 최근에는 바둑판 위의 패턴 완성, 아이콘 찾기, 공간 위치 파악 같은 훨씬 복잡한 시각적 공간 추론 과제로 진화했다.

연구팀은 기존 캡차 벤치마크(benchmark, AI 성능을 비교하는 기준 테스트)에 결정적인 공백이 있다는 점을 발견했다. 지금까지 대부분의 연구는 AI가 캡차를 맞혔는지 틀렸는지만 기록했을 뿐, 어떤 추론 과정을 거쳐 정답에 도달했는지는 분석하지 않았다. 연구팀은 이 공백을 메우기 위해 CAPTCHA-X를 개발했다.

CAPTCHA-X는 지트테스트 고뱅(GeeTest Gobang), 구글 리캡차(Google reCAPTCHA V2), hCaptcha 등 7가지 유형의 실제 캡차 1,839개 문제로 구성된 최초의 추론 주석(annotation) 포함 벤치마크다. 문제마다 단계별 풀이 과정과 마우스 클릭 좌표가 함께 기록되어 있어, AI가 정답을 맞혔는지뿐 아니라 어떻게 생각했는지까지 평가할 수 있다.

그림1. AI가 바둑판 형태의 캡차를 풀며 생성한 추론 단계와 마우스 클릭 경로를 시각화한 이미지

추론 없이는 15.7%, 추론이 붙으면 38.75% 도약

컬럼비아 대학교 연구팀의 실험에서 가장 충격적인 수치는 15.7%다. 추론 없이 캡차 이미지를 보고 바로 답을 출력하도록 했을 때, 제미나이(Gemini), 클로드(Claude), GPT 등 주요 상용 시각-언어 모델(VLM, Vision-Language Model)의 평균 정확도가 고작 15.7%에 머물렀다. 시각-언어 모델이란 이미지와 텍스트를 동시에 처리할 수 있는 AI 모델을 가리킨다. 실험 결과는 캡차가 아직 AI의 상당한 장벽으로 작동한다는 것을 보여주는 동시에, 그 장벽이 어디서 뚫리는지도 함께 드러냈다.

AI에게 답을 바로 내놓지 말고 단계적으로 생각한 뒤 최종 클릭 좌표를 출력하도록 유도하자, 평균 정확도가 38.75% 상승했다. 통계적으로 유의미한 개선임을 연구팀은 맥네마 검정(McNemar's test, p < 0.001)으로 확인했다. 단순히 더 많이 맞힌 것에 그치지 않았다. 클릭 위치의 공간 오차(L2 거리, 예측 위치와 정답 위치 사이의 픽셀 거리)도 14.6% 줄어들었다.

추론이 정확도와 위치 정밀도를 동시에 끌어올린 것이다. 이것이 매일 수천 건의 자동화 요청을 처리하는 시스템에 누적되면, 보안 방어선의 실질적인 약화로 이어질 수 있다.

모델별로 살펴보면 제미나이-2.5-프로(Gemini-2.5-Pro)가 모든 카테고리에서 가장 높은 정확도와 가장 작은 공간 오차를 기록하며 상용 모델 중 1위를 차지했다. 클로드-4-오퍼스(Claude-4-Opus)는 추론의 질과 복잡성 측면에서는 2위를 기록했지만, 주어진 추론 길이 대비 정확도 효율은 하위권에 머물렀다. 추론을 잘한다고 해서 반드시 효율적으로 추론하는 것은 아니라는 점을 보여주는 결과다.

어려운 문제일수록 추론 효과가 더 크다

컬럼비아 대학교 연구팀이 이번 논문에서 발견한 '추론 스케일링 법칙(Reasoning Scaling Law)'은 AI 성능 예측에 새로운 기준을 제시한다. 추론 스케일링 법칙이란 AI의 추론 능력과 문제 풀이 성능 사이에 예측 가능한 수학적 관계가 존재한다는 개념이다.

연구팀은 세 가지 패턴을 발견했다. 첫째, 추론의 깊이와 추론의 길이, 사고 경로의 복잡성 사이에는 선형(linear) 비례 관계가 있었다. 추론을 잘할수록 더 길고 복잡하게 생각하며, 그것이 정확도로 이어진다. 둘째, 추론 효율성과 정확도 사이에는 초선형(superlinear) 관계가 나타났다. 조금 더 효율적으로 추론하는 모델이 최종 성능에서는 훨씬 큰 차이를 벌린다는 의미다.

셋째이자 가장 반직관적인 패턴은 '난이도-성능 향상 스케일링'이다. 문제가 어려울수록 추론을 추가했을 때 얻는 성능 향상 폭이 훨씬 커졌다. 스피어만 상관 분석(Spearman's rank correlation) 결과 ρ = 0.93, p = 0.0025로 통계적으로 매우 강한 관계가 확인됐다. 일상으로 치환하면 이렇다. 누군가 쉬운 곱셈 문제를 풀 때는 노트에 풀이 과정을 적어도 암산과 크게 다르지 않지만, 복잡한 방정식 앞에서는 풀이 과정을 적는 것이 결정적인 차이를 만든다. AI도 마찬가지였다. 어려운 캡차에서는 추론이 없으면 거의 풀지 못하지만, 추론을 붙이면 성능이 극적으로 올라간다.

연구팀은 그 이유로 AI가 문제 난이도를 감지하면 자동으로 더 긴 추론 시퀀스를 생성하는 경향이 있음을 확인했다. 난이도와 추론 길이 사이의 회귀 분석(R² = 0.92)이 이를 뒷받침한다. AI가 문제의 복잡성에 맞게 스스로 연산 자원을 배분하는 셈이다.

AI 에이전트가 캡차를 83.9%까지 풀어내는 방식

연구팀은 추론만으로 해결되지 않는 실패 사례도 분석했다. 크게 세 가지였다. 논리 오류(추론 단계가 서로 모순되는 경우), 구조 오류(5×5 바둑판을 3×3으로 잘못 인식하는 경우), 위치 오류(추론은 맞았지만 최종 클릭 좌표가 틀린 경우)다.

이를 해결하기 위해 연구팀이 개발한 것이 추론 중심 에이전트(reasoning-centered agentic pipeline)다. 에이전트는 캡차를 격자형과 비격자형으로 분류하는 판별기, 격자 구조를 기호로 변환하는 매핑 전문가, 공간 좌표를 정밀하게 잡아주는 공간 이해 전문가, 추론의 일관성을 검증하는 판단기 등 여러 전문화된 모듈로 구성된다. 각 모듈이 이전 단계의 오류를 교정하는 구조다. 로봇 제어 분야의 '세이캔(SayCan)' 프레임워크에서 착안한 설계로, 언어 모델의 고수준 추론과 실제 행동 실행을 연결하는 방식을 캡차 풀기에 적용한 것이다.

결과적으로 이 에이전트는 CAPTCHA-X의 7개 유형에서 평균 83.9%의 정확도를 달성했다. 공간 오차 기준에서는 인간보다도 정밀했다. 학습에 포함되지 않은 외부 캡차 유형인 도형 클릭에서 100%, 순서 클릭에서 85%, 동물 인식에서 90%를 기록했다. 기존 최고 성능인 평균 40%와 비교하면 두 배 이상의 차이다. 한 번 추론 능력을 갖추면 본 적 없는 캡차 형식에도 강하게 전이된다는 것을 데이터가 보여준다.

다만 연구팀은 중요한 선을 그었다. CAPTCHA-X는 AI의 시공간 추론 능력을 연구하기 위한 학술 벤치마크이며, 실제 인증 시스템을 우회하는 것을 목적으로 하지 않는다. 공개 데이터에는 정적 이미지와 익명화된 주석만 포함되며, 특정 웹사이트 접근을 위한 자동화 스크립트는 제공하지 않는다.

캡차 너머로 보이는 것

이 연구가 보여주는 것은 캡차 풀기 그 이상일 가능성이 있다. 사람이 "나는 로봇이 아닙니다"를 증명하는 방식이 본질적으로 공간 인식과 단계적 추론에 기반한다면, AI가 그 능력을 갖추기 시작했다는 것은 인증 보안 설계 전반을 재검토해야 한다는 신호로 읽힐 수 있다.

캡차 설계자 입장에서는 AI가 추론을 통해 난이도 장벽을 극복한다는 사실이 새로운 과제를 제시한다. 단순히 더 어렵게 만드는 방식만으로는 충분하지 않을 가능성이 있다. AI 활용자 입장에서도 이 연구는 시사점을 던진다. 단계적 추론 능력이 시각적 공간 문제에서도 결정적 변수라는 사실이 확인됐기 때문이다.

AI를 선택할 때 단순히 정확도 수치뿐 아니라 그 AI가 얼마나 논리적 단계를 밟아 문제를 푸는지도 따져야 한다는 것이 이 연구가 남기는 교훈이다. 캡차의 완전한 무력화를 단정하기는 이르지만, 인간-기계 경계선에 분명한 균열이 생겼다는 사실은 두고 볼 필요가 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 캡차(CAPTCHA)가 정확히 무엇인가요?
캡차(CAPTCHA)는 사람과 자동화 봇을 구분하기 위해 사용하는 보안 기술입니다. "신호등이 있는 칸을 모두 클릭하세요"처럼 사람은 쉽게 풀지만 AI는 어렵다고 여겨지는 시각적 과제를 제시합니다. 최근에는 단순 이미지 인식을 넘어 공간 추론이 필요한 복잡한 퍼즐 형태로 진화했습니다.

Q. 이 연구가 인터넷 보안에 미치는 영향은 무엇인가요?
이 연구는 AI가 단계적 추론 능력을 갖추면 기존 캡차의 상당 부분을 풀 수 있다는 사실을 보여줍니다. 연구팀은 학술 목적으로만 연구를 진행했으며, 실제 인증 시스템을 우회하는 도구는 배포하지 않았습니다. 다만 보안 업계에서는 AI에 강한 새로운 인증 방식의 필요성을 논의하게 될 것으로 예상됩니다.

Q. AI가 캡차를 잘 풀기 위해 가장 중요한 능력은 무엇인가요?
이 연구에 따르면 단계적 추론(step-by-step reasoning) 능력이 가장 결정적입니다. 이미지를 보고 바로 답을 내면 정확도가 15.7%에 그치지만, 논리적 단계를 밟아 생각한 뒤 답을 내면 평균 38.75% 더 정확해집니다. 특히 어려운 문제일수록 추론의 효과가 극적으로 커집니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

번호	제목	글쓴이	작성일	조회	추천
설문	메시지 읽씹 잘 할 것 같은 이미지의 스타는?	운영자	26/04/20	-	-
2515	GPT-5도 어린이 종이접기 문제에서 길을 잃었다	aimatters	04.23	18	0
2514	AI에게 접시 가져다달라 했더니 냉장고부터 연 이유	aimatters	04.23	20	0
2513	알리바바 클라우드, 아태 IaaS 점유율 22.5%로 1위 유지… 글로벌 7.7%까지 상승	aimatters	04.23	15	0
2512	애피어, 에이전틱 AI로 글로벌 여행 플랫폼 '오미오' 유럽 21개국 확장 견인	aimatters	04.23	10	0
2511	퀀텀에이아이, 구글 터보퀀트 넘는 차세대 초압축 기술 '퀀텀퀀트' 공개… "AI 메모리 장벽 돌파"	aimatters	04.23	12	0
2510	테슬라, 판매량 둔화에도 1분기 영업이익 컨센서스 상회… 에너지 저장은 38% 감소	aimatters	04.23	9	0
2509	X, Grok 기반 '커스텀 타임라인' 출시… 커뮤니티 기능은 종료	aimatters	04.23	12	0
2508	구글, '워크스페이스 스튜디오' 전면 공개… "명령어 한 줄로 AI 에이전트 제작"	aimatters	04.23	9	0
2507	메타, 美 직원 PC에 마우스·키보드 추적 도구 설치… "AI 에이전트 학습용"	aimatters	04.23	10	0
2506	xAI Grok, 접속 장애·응답 지연 속출… "공식 대시보드는 정상"	aimatters	04.23	15	0
2505	마이크로소프트, Edge 브라우저 'Copilot 스타일'로 전면 개편 공식화	aimatters	04.23	9	0
2504	구글 "제미나이 기반 새 Siri, 2026년 내 출시" 공식 확인	aimatters	04.23	15	0
2503	구글, Vertex AI 대체한 '제미나이 엔터프라이즈 에이전트 플랫폼' 공식 출시	aimatters	04.23	10	0
2502	규제∙금리∙전쟁 등 이벤트 예측 AI 스타트업 Sooth Labs, 르쿤·딘 지원 받아 5천만 달러 모금	aimatters	04.23	9	0
2501	메타, 초지능 팀 첫 AI 모델 'Muse Spark' 공개… 왓츠앱·인스타에 순차 적용	aimatters	04.23	10	0
2500	앤트로픽, Pro 요금제에서 클로드 코드 일시 제외 테스트… 개발자 반발에 철회	aimatters	04.23	10	0
2499	오픈AI, 기업용 조인트벤처 '디플로이코'에 최대 15억 달러 투자 추진... 기업용 AI 세일즈 담당해	aimatters	04.23	15	0
2498	비 오는 밤 자율주행 AI의 눈이 뒤집혔다 제미나이 3이 YOLO를 25% 이상 앞섰다	aimatters	04.23	9	0
2497	구글 클라우드 넥스트 2026, 엔비디아 위협하는 에이전트 AI용 8세대 'TPU 8t·8i' 공개 [1]	aimatters	04.23	377	0
	"나는 로봇이 아닙니다"가 무너지다, AI가 캡차를 83.9%까지 풀어냈다 [10]	aimatters	04.22	1432	6
2495	AI 챗봇 계정 30만 개가 다크웹에서 팔렸다, IBM이 밝힌 해커들의 AI 활용법	aimatters	04.22	28	0
2494	같은 질문에 GPT는 답하고 클로드는 피했다, 10개 AI 지역 편향 3.8배 격차	aimatters	04.22	32	0
2493	LG전자, 월드IT쇼 2026서 ‘AI 홈·구독·코어테크’ 공개…일상 케어형 솔루션 전면 배치	aimatters	04.22	16	0
2492	美 국방부, 드론에 약 76조 원 쏟아붓는다… 우리나라 국방예산 65조 원 넘는 사상 최대 투자 [4]	aimatters	04.22	1014	3
2491	스페이스X, AI 코딩 스타트업 커서 품는다… 600억 달러 인수 옵션 확보	aimatters	04.22	25	0
2490	AI 투자 1달러가 3달러로 돌아온 20개 기업, 맥킨지가 공개한 12가지 조건	aimatters	04.21	26	0
2489	제미나이 로보틱스 ER 1.6, 로봇이 공장 계기판을 93% 정확도로 읽기 시작했다	aimatters	04.21	22	0
2488	챗GPT가 운전대를 잡으면? 한 대는 겁쟁이 한 대는 폭주족이 됐다	aimatters	04.21	24	0
2487	플로랩스, AI 큐레이션 허브 'AItira' 정식 오픈…"사용자 필요 자동 인식해 AI 도구 추천" [1]	aimatters	04.21	27	0
2486	DJI, NAB Show 2026 참가… RS 5 세계 최초 공개·차량 촬영 솔루션 총출동	aimatters	04.21	20	0
2485	'팀 쿡 시대 끝난다' 팀 쿡, 15년 만에 애플 CEO 퇴임…후임은 하드웨어 수장 존 터너스 [4]	aimatters	04.21	742	0
2484	AI가 쓴 글의 징표 "그것만이 아니라 이것도"… 기업 문서에서 2년 만에 4배 급증	aimatters	04.21	34	0
2483	퍼플렉시티, 맥용 상시 구동 AI 에이전트 '퍼스널 컴퓨터' 출시…오픈클로 대항마 되나	aimatters	04.21	30	0
2482	이제 디자인도 '딸깍?' 앤트로픽, 비디자이너를 위한 시각 창작 도구 '클로드 디자인' 출시	aimatters	04.21	30	0
2481	챗GPT 유료 광고 호주·뉴질랜드·캐나다로 확대… 무료·고 이용자 대상	aimatters	04.21	21	0
2480	오픈AI의 두 가지 실존적 고민… 수익성과 이미지 회복 위기 동시에 직면	aimatters	04.21	19	0
2479	'괴물 추론 칩' 만드는 세레브라스, SEC에 IPO 신청서 제출…오픈AI와 200억 달러 칩 공급 계약 체결	aimatters	04.21	64	0
2478	에이서, 0.99kg 초경량 AI 노트북 '스위프트 엣지 14 AI' 출시…인텔 팬서레이크·최대 26시간 배터리	aimatters	04.20	30	0
2477	애플, iOS 27서 시리 전면 개편…구글 제미나이 기반 AI 챗봇으로 탈바꿈 [16]	aimatters	04.20	834	0
2476	로보락, 높이 7.95cm 초슬림 플래그십 로봇청소기 'S10 MaxV Slim' 출시…이중 문턱 8.8cm 통과	aimatters	04.20	37	0
2475	위로보틱스, 보행 보조 로봇 구독 서비스 'WIM 프리미엄' 출시…웨어러블 로봇의 'RaaS' 시대 열다	aimatters	04.20	18	0
2474	소니, NAB 2026서 방송·제작 혁신 솔루션 공개…'R 시리즈' 카메라·MOXELA 플랫폼 선봬	aimatters	04.20	462	1
2473	앤트로픽 기업가치 8,000억 달러 평가…연매출 300억 달러로 오픈AI 추월	aimatters	04.20	33	0
2472	MIT 테크놀로지 리뷰, 'AI 현재 10대 이슈' 첫 발표…AI 동반자·바이브 코딩 등 선정	aimatters	04.20	27	0
2471	구글 클라우드 넥스트 2026 D-2…제미나이를 클라우드 임베딩해 사용하는 에이전틱 AI 시대	aimatters	04.20	22	0
2470	NAB Show 2026 개막…AI, 미디어 제작 현장의 핵심 인프라로 자리잡다	aimatters	04.20	18	0
2469	EU AI 법, 채용 편향 감사 의무화 시행 105일 전…AI로 채용하면 인간 감사 받아야 한다	aimatters	04.20	18	0
2468	챗GPT로 답을 복붙해도 점수는 같았다, 단 한 가지만 빼고	aimatters	04.20	29	0
2467	챗GPT에 아이디어를 물으면 안 되는 이유, 독일 연구팀이 밝혔다	aimatters	04.20	51	0
2466	회사 코드에 AI가 쓴 코드가 몇 줄이나 있지 추적하는 기술이 나왔다	aimatters	04.20	28	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[AI 매터스 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

파워링크 광고

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘