디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

"클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다"

aimatters갤로그로 이동합니다. 2026.02.05 14:58:26
조회 132 추천 0 댓글 0


최신 AI 모델들이 코드 작성에서는 뛰어난 능력을 보이지만, 실제 소프트웨어를 만들고 운영하는 전 과정에서는 심각한 한계를 드러냈다. 해당 논문에 따르면, 미국과 싱가포르 대학 연구진이 개발한 새로운 평가 도구로 클로드-4, GPT-4o 같은 AI를 테스트한 결과, 프로그램 제작부터 시스템 감시, 버그 수정, 테스트 작성까지 실무 작업에서 20~50%대의 낮은 성공률을 기록했다.



700개 실제 작업으로 AI의 진짜 실력을 측정했다

연구진이 만든 '데브옵스-짐(DevOps-Gym)'은 기존 평가 도구들과 다르다. 기존 도구들이 '코드 한 줄 잘 쓰는지'만 봤다면, 이번 도구는 '실제로 돌아가는 프로그램을 처음부터 끝까지 만들 수 있는지'를 평가한다. 자바(Java)와 고(Go)라는 프로그래밍 언어로 작성된 30개 이상의 실제 프로젝트에서 700개가 넘는 작업을 모았다. 이 작업들은 깃허브(GitHub)에서 실제로 발생한 문제들이거나, 전문가들이 현장에서 흔히 겪는 문제 패턴을 재현한 것들이다.

연구진은 특히 'AI가 이미 답을 알고 있는 문제'를 걸러내는 데 심혈을 기울였다. 각 프로젝트마다 20개의 코드 조각을 뽑아 AI 모델에게 이어서 작성하게 한 뒤, 원본과 얼마나 비슷한지 측정했다. 20개 코드 조각 중 4개 이상(20% 이상)에서 의심스러운 재현이 발견된 프로젝트는 '이미 학습했을 가능성이 높다'고 판단해 제외했다. 또한 AI가 과거 버전 기록을 뒤져서 정답을 찾는 것을 막기 위해, 모든 버전 기록 데이터를 삭제했다.


프로그램 제작 51%, 시스템 감시 20%... 단계별로 드러난 약점


연구진은 소프트웨어 개발과 운영 과정을 4개 단계로 나눠 평가했다.

첫 번째는 '프로그램 제작과 설정' 단계다. 프로그램을 실행 파일로 만들고, 필요한 외부 프로그램들을 연결하며, 제작 과정에서 생기는 오류를 고치는 작업이다. Maven이라는 도구에서 Gradle이라는 다른 도구로 바꾸는 것처럼, 제작 방식 자체를 변경하는 작업도 포함된다. 두 번째는 '시스템 감시' 단계다. 프로그램이 돌아갈 때 메모리가 계속 쌓이는 문제, 프로세서가 갑자기 과부하되는 문제, 데이터 입출력이 느려지는 문제 같은 이상 징후를 찾아내야 한다. 세 번째는 '버그 수정' 단계로, 문제 설명을 읽고 코드를 고치는 작업이다. 네 번째는 '테스트 작성' 단계로, 같은 버그가 다시 생기지 않도록 검증 프로그램을 만드는 작업이다.


평가 결과는 충격적이었다. 가장 성적이 좋았던 클로드 코드와 클로드-4 조합도 프로그램 제작에서 51.85%, 시스템 감시에서 20.56%, 버그 수정에서 23.87%, 테스트 작성에서 13.87%만 성공했다. 특히 일부 최신 모델은 시스템 감시 작업에서 단 한 건도 성공하지 못해 0%를 기록했다. 이는 AI가 코드를 잘 다루는 능력은 늘었지만, 프로그램을 만들고 운영하는 환경 자체를 관리하는 능력은 여전히 부족하다는 뜻이다.


파이썬만 잘하는 AI... 자바와 고에서는 성적 급락

프로그래밍 언어에 따른 성능 차이도 눈에 띄었다. 기존 평가 도구인 'SWE-Bench'에서 파이썬으로 작성된 프로젝트를 대상으로 70.4%의 성공률을 기록했던 오픈핸즈(OpenHands)와 클로드-4 조합이, 자바와 고 프로젝트에서는 23.87%로 급락했다. 이는 AI 모델들이 학습할 때 파이썬 코드를 압도적으로 많이 봤기 때문이다. 또한 자바와 고는 사람이 쓴 코드를 컴퓨터가 실행할 수 있는 형태로 번역하는 복잡한 과정이 필요하고, 외부 프로그램 연결과 제작 환경 설정이 까다로워서 파이썬 중심으로 학습한 AI가 넘기 어려운 벽이 존재한다.

연구진은 AI가 실행한 기록을 분석해 3가지 주요 실패 원인을 찾아냈다. 첫째, 필요한 도구를 쓰지 못한 경우가 33%였다. AI가 프로그램 설정 파일의 문법 오류나 빠진 부분을 확인할 수 있는 도구에 접근하지 못해 문제를 해결하지 못했다. 둘째, 여러 단계를 연결해서 생각하지 못한 경우가 23%였다. AI가 첫 번째 오류는 고쳤지만 남은 문제를 추적하지 못하거나, 작업 흐름의 일부만 처리한 후 일찍 멈췄다. 셋째, 전문 지식 부족이 37%로 가장 많았다. 메이븐에서 그래들로 바꾸는 것처럼 제작 시스템의 작동 원리와 세부 설정을 이해해야 하는 작업에서 AI의 능력이 근본적으로 부족했다.




시스템 감시에서 드러난 치명적 결함


시스템 감시 작업에서 AI의 성능이 특히 나쁜 이유는 시간에 따라 변하는 상황을 계속 지켜봐야 하기 때문이다. 메모리가 계속 쌓이는 문제는 몇 시간에 걸쳐 서서히 나타난다. 그래서 AI는 시스템 상태를 계속 관찰하고 변화를 추적해야 한다. 하지만 현재 AI 프로그램들은 이런 연속적이고 시간에 따른 정보를 처리하는 데 실패했다.

연구진은 시스템 감시 실패의 4가지 패턴을 확인했다.

첫째, 잘못된 감시 방법을 쓴 경우가 37%였다. AI가 '1초마다 계속 확인하라'는 명령 대신 '한 번만 확인하라'는 명령을 써서 일시적인 문제를 놓쳤다. 둘째, 성급하게 결론을 내린 경우가 26%였다. AI가 감시를 하지 않거나 진단을 끝내지 않은 채 답을 제출했다. 셋째, 확인 간격이 너무 긴 경우가 11%였다. 10~60초마다 확인해서 프로세서가 갑자기 과부하되는 순간을 놓쳤다. 넷째, 데이터 해석 실패가 26%였다. 필요한 정보는 모았지만 이를 제대로 분석하지 못했다.


실제 사례 연구에서도 AI가 감시 작업 중 집중력을 유지하지 못하는 문제가 드러났다. 한 AI는 처음 본 결과를 과도하게 분석하는 데 집중하다가 실시간 시스템 상태 확인을 멈췄다. 다른 AI는 한 번에 처리할 수 있는 정보량 제한에 걸려 기록 파일의 일부만 읽은 후 잘못된 결론을 냈다.



전체 과정 연결... 모든 AI가 한 건도 완료 못 해

연구진은 4개 단계를 순서대로 이어서 해야 하는 작업도 평가했다. 프로그램 제작 오류를 고치고, 시스템을 감시해 문제를 찾고, 근본 원인을 해결하는 코드를 작성하고, 재발 방지 테스트를 만드는 전체 흐름이다.

결과는 모든 AI가 단 한 건의 전체 작업도 끝내지 못해 0%를 기록했다. AI들은 1단계(프로그램 제작)를 성공하는 경우가 있었지만, 2단계(시스템 감시)에서 대부분 실패했다. 흥미롭게도 일부 AI는 잘못된 감시 결론에도 불구하고 3단계(버그 수정)나 4단계(테스트 작성)에서 우연히 성공하기도 했다. 서로 다른 성능 문제가 비슷한 코드 상의 징후를 보이기 때문이다. 하지만 전체 흐름 관점에서는 완전한 실패였다.


이 결과는 현재 AI들이 개별 작업을 연결해서 일관된 흐름으로 실행하는 능력이 부족함을 보여준다. 실제 프로그램 배포 현장에서는 절반만 해결한 것이 아무 소용없기 때문에, 이는 실무 적용에 있어 치명적인 한계다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 이번 평가 도구는 기존과 어떻게 다른가요?

A. 기존 평가 도구들은 주로 '코드를 얼마나 잘 쓰는지'만 봤습니다. 이번에 만든 도구는 '실제로 돌아가는 프로그램을 처음부터 끝까지 만들 수 있는지'를 평가합니다. 프로그램 제작, 시스템 감시, 버그 수정, 테스트 작성의 4단계를 모두 포함하며, 실제 도커(Docker) 환경에서 명령어를 입력해 작업을 수행해야 합니다. 또한 AI 모델이 학습 중에 본 적 없는 작업들로만 구성하기 위해 체계적인 검증 과정을 거쳤습니다.

Q2. AI가 파이썬에서는 잘하는데 자바와 고에서 못하는 이유는 무엇인가요?

A. AI 모델들이 학습할 때 본 코드 중에서 파이썬이 압도적으로 많았기 때문입니다. 또한 자바와 고는 사람이 쓴 코드를 컴퓨터가 실행할 수 있는 형태로 번역하는 복잡한 과정이 필요합니다. 필요한 외부 프로그램들을 연결하고, 제작 방식을 설정하는 것도 파이썬보다 훨씬 까다롭습니다. 예를 들어 자바의 메이븐이나 그래들 같은 제작 도구가 어떻게 작동하는지 이해하고 설정 파일을 올바르게 작성하는 것은, 단순히 오류 메시지를 해석하는 것보다 훨씬 어려운 작업입니다.

Q3. 시스템 감시 작업에서 AI의 성공률이 가장 낮은 이유는 무엇인가요?

A. 시스템 감시는 시간에 따라 변하는 상태를 계속 지켜봐야 하는데, 현재 AI들은 이런 연속적인 정보를 처리하는 데 한계가 있습니다. 메모리가 계속 쌓이는 문제는 몇 시간에 걸쳐 서서히 나타나고, 프로세서 과부하는 특정 상황에서만 가끔 발생합니다. AI는 실시간으로 들어오는 새로운 정보를 계속 처리해야 하지만, 한 번에 처리할 수 있는 정보량에 빨리 도달하고, 처음 본 결과를 과도하게 분석하다가 실시간 감시를 멈추는 경향이 있습니다.



기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논문명: DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 며느리, 사위로 만나면 부담스러울 것 같은 스타는? 운영자 26/03/09 - -
2177 AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다 aimatters갤로그로 이동합니다. 03.12 11 0
2176 AI가 세계 최고 물리올림피아드에서 처음으로 만점을 받았다 aimatters갤로그로 이동합니다. 03.12 13 0
2175 엔비디아, AI 에이전트용 모델 '네모트론 3 슈퍼' 공개…속도 5배↑ 비용은 줄였다 aimatters갤로그로 이동합니다. 03.12 10 0
2174 "이보다 쉬운 설명, 이보다 깊은 통찰은 없다"… 박태웅의 AI 강의 2026, AI 격변의 현재를 해부하다 aimatters갤로그로 이동합니다. 03.12 10 0
2173 글로벌 기업 83%가 지속가능성 투자를 늘리는 진짜 이유는 AI였다 aimatters갤로그로 이동합니다. 03.12 9 0
2172 "AI 때문에 자를 수밖에 없었다"…아틀라시안, 직원 1,600명 해고 aimatters갤로그로 이동합니다. 03.12 15 0
2171 챗GPT보다 4년 먼저 에이전트 출시…젠데스크, AI 고객 서비스 스타트업 포어소트 인수 aimatters갤로그로 이동합니다. 03.12 8 0
2170 벤 애플렉의 AI 영화 후반 작업 스타트업, 넷플릭스가 6억 달러에 샀다 aimatters갤로그로 이동합니다. 03.12 13 0
2169 미국 10대 64%가 AI 챗봇을 쓰는 시대, 부모 10명 중 3명은 사실조차 모른다 [3] aimatters갤로그로 이동합니다. 03.11 1305 4
2168 챗GPT가 스택 오버플로를 오염시키고 있다, AI가 AI를 잡아낸다 aimatters갤로그로 이동합니다. 03.11 50 0
2167 AI가 해커보다 먼저 움직인다, CISO들이 선택한 생존 전략 aimatters갤로그로 이동합니다. 03.11 31 0
2166 아마존, 헬스케어 AI 어시스턴트 전면 개방…프라임 회원 아니어도 무료 이용 aimatters갤로그로 이동합니다. 03.11 24 0
2165 포켓몬 고가 배달 로봇의 눈이 됐다…나이언틱의 AI 지도 혁명 aimatters갤로그로 이동합니다. 03.11 35 0
2164 "답할까, 거절할까, 추측할까"…애피어, AI 의사결정 신뢰성 높이는 연구 발표 aimatters갤로그로 이동합니다. 03.11 25 0
2163 "이 노래, AI가 만들었나요?"…애플 뮤직, AI 생성 음악 표시 태그 도입 [1] aimatters갤로그로 이동합니다. 03.11 1041 3
2162 벚꽃 사진 한 장으로 개화일 뚝딱…일본 날씨 앱, AI 벚꽃 개화 예측 서비스 시작 aimatters갤로그로 이동합니다. 03.11 35 0
2161 AI 도구 '에코넥스트', 심장 전문의보다 정확하게 구조적 심장질환 잡아냈다 aimatters갤로그로 이동합니다. 03.11 22 0
2160 "병원∙약국 최저가 AI가 챙긴다"…CVS 헬스, 구글 클라우드와 AI 헬스케어 플랫폼 출시 aimatters갤로그로 이동합니다. 03.11 29 0
2159 AI가 만든 영상인지 모르고 봤다, 소라 사용자 254명이 털어놓은 충격 반응 [5] aimatters갤로그로 이동합니다. 03.10 2513 3
2158 사진 한 장으로 내 얼굴·손동작까지 살아 움직이는 AI 영상 만든다... 클링-모션 컨트롤 출시 aimatters갤로그로 이동합니다. 03.10 68 0
2157 챗GPT 사용자 2293만 명, 그록 AI는 출시 1년 만에 3위 올라섰다 aimatters갤로그로 이동합니다. 03.10 59 0
2156 "경쟁사도 우리 편"…오픈AI·구글 직원들, 앤트로픽 국방부 소송 공개 지지 aimatters갤로그로 이동합니다. 03.10 45 0
2155 AI가 만든 코드, 멀티 에이전트 AI가 검수한다…앤트로픽, 코드 리뷰 툴 정식 출시 [3] aimatters갤로그로 이동합니다. 03.10 1252 3
2154 오픈AI, AI 보안 스타트업 프롬프트푸 인수…에이전트 보안 강화 나선다 aimatters갤로그로 이동합니다. 03.10 49 0
2153 "3시간 경기보다 15초의 순간"…AI가 야구 콘텐츠 판을 바꾼다 aimatters갤로그로 이동합니다. 03.09 1086 1
2152 "상상이 현실이 된다"…PixAI, 차세대 AI 이미지 모델 '츠바키.2' 공개 [1] aimatters갤로그로 이동합니다. 03.09 1268 2
2151 35만원 싸게 살 수 있다…에이서, 인텔 팬서레이크 탑재 'AI 노트북' 예약 판매 시작 aimatters갤로그로 이동합니다. 03.09 1245 0
2150 "온 디바이스 AI폰의 종결자"…갤럭시 S26, 이제는 'AI 에이전트폰'이다 aimatters갤로그로 이동합니다. 03.09 139 0
2149 AI 에이전트 스킬 마켓플레이스의 민낯, 4만 개 분석하니 절반이 중복이고 9%는 위험했다 aimatters갤로그로 이동합니다. 03.09 34 0
2148 구글 나노 바나나가 만든 가짜 흉부 X선으로 폐렴을 92% 정확도로 잡아냈다 aimatters갤로그로 이동합니다. 03.09 98 0
2147 AI 이미지 생성의 공식이 나왔다, 구조화된 프롬프트가 일관성을 95%까지 끌어올린다 aimatters갤로그로 이동합니다. 03.09 56 0
2146 앤트로픽이 '적'에서 '동반자'로…소프트웨어 주가 반등 aimatters갤로그로 이동합니다. 03.09 38 0
2145 "대량 해고? 그런 건 없다"…세일즈포스 CEO, AI발 고용 공포에 선 그었다 aimatters갤로그로 이동합니다. 03.09 35 0
2144 "내 사랑하는 큐웬, 안녕"…알리바바 AI 핵심 인재 연쇄 이탈 aimatters갤로그로 이동합니다. 03.09 42 0
2143 AI 비용 효율 최고는 앤트로픽...비결은 이중 하이퍼스케일러, 오픈AI는 엔비디아 칩만 써 aimatters갤로그로 이동합니다. 03.09 29 0
2142 의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕... aimatters갤로그로 이동합니다. 03.09 48 0
2141 집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5] aimatters갤로그로 이동합니다. 03.06 1758 1
2140 AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀 aimatters갤로그로 이동합니다. 03.06 40 0
2139 AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험 aimatters갤로그로 이동합니다. 03.06 50 0
2138 "추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2] aimatters갤로그로 이동합니다. 03.06 1593 0
2137 "안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다 aimatters갤로그로 이동합니다. 03.06 21 0
2136 "IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다 aimatters갤로그로 이동합니다. 03.06 38 0
2135 직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면 aimatters갤로그로 이동합니다. 03.06 126 1
2134 "오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파 aimatters갤로그로 이동합니다. 03.05 55 0
2133 구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방 aimatters갤로그로 이동합니다. 03.05 66 0
2132 "AI 아내와 메타버스로"…제미나이가 36세 남성을 망상과 죽음으로 이끌었나 aimatters갤로그로 이동합니다. 03.05 82 0
2131 아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것 aimatters갤로그로 이동합니다. 03.05 49 0
2130 말만 하면 AI가 생각을 정리해주는 시대, '오럴리티'가 바꾸는 사고의 방식 aimatters갤로그로 이동합니다. 03.05 33 0
2129 AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공 aimatters갤로그로 이동합니다. 03.05 42 0
2128 AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다 aimatters갤로그로 이동합니다. 03.05 31 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2