디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다

aimatters갤로그로 이동합니다. 2026.03.12 14:32:18
조회 54 추천 0 댓글 0


오픈에이아이(OpenAI), 패러다임(Paradigm), 오터섹(OtterSec)이 공동 개발한 EVMbench는 AI 에이전트의 스마트 계약 보안 능력을 측정하는 최초의 대규모 벤치마크다. 취약점 탐지 45.6%, 익스플로잇(exploit, 취약점 실제 공격) 성공률 72.2%라는 결과가 발표되면서 "AI가 곧 보안 감사를 완전히 자동화할 것"이라는 기대가 업계에 퍼졌다. 그러나 저장(BlockSec)의 연구자들이 이 벤치마크의 설계 한계를 지적하고 더 엄밀한 조건으로 재평가를 진행한 결과, 실제 세계에서 AI 에이전트가 공격을 끝까지 성공시킨 사례는 단 한 건도 없었다.



EVMbench가 놓친 두 가지 맹점

저장대학교와 블록섹(BlockSec)의 연구팀은 EVMbench의 실험 설계에서 두 가지 핵심 문제를 발견했다. 첫째는 평가 범위가 지나치게 좁다는 점이다. EVMbench는 14개의 에이전트 설정만 테스트했고, 대부분의 모델을 해당 모델 제조사가 만든 전용 도구와만 묶어서 평가했다. 예를 들어 클로드(Claude)는 클로드 코드(Claude Code)와, GPT는 코덱스 CLI(Codex CLI)와만 짝지어 테스트됐다. 도구 선택이 결과에 큰 영향을 미친다는 사실을 인정하면서도 이를 통제하지 않은 것이다.

둘째는 데이터 오염 가능성이다. EVMbench의 120개 취약점은 모두 코드4레나(Code4rena)라는 감사 경진대회에서 가져온 것으로, 그중 40개 저장소 중 36개가 2025년 8월 이전에 공개된 자료다. 2025년 말과 2026년에 출시된 AI 모델들의 학습 데이터 수집 기간과 상당 부분 겹친다. 즉, 높은 점수가 진짜 추론 능력이 아니라 기억에서 비롯됐을 수 있다.



26개 설정, 22건 실제 사고로 재평가

연구팀은 4개 모델 군과 3개 도구 조합으로 총 26개 에이전트 설정을 구성해 평가 범위를 대폭 넓혔다. 클로드(Claude), GPT, 제미나이(Gemini), GLM 계열 모델들을 클로드 코드, 코덱스 CLI, 그리고 오픈소스 도구인 오픈코드(OpenCode)와 각각 교차 테스트했다.

데이터 오염 문제를 해결하기 위해서는 모든 평가 모델의 출시일인 2026년 2월 이후에 실제로 발생한 보안 사고 22건을 별도로 수집해 '인시던트(Incidents) 데이터셋'을 구성했다. 이 사고들은 실제 블록체인에서 자금 피해가 확인된 것들이며, 어떤 모델의 학습 데이터에도 포함될 수 없는 새로운 사례들이다.



실제 사건에서 AI 익스플로잇 성공률 0%

가장 충격적인 결과는 실제 보안 사
고 데이터에서 나왔다. EVMbench 데이터에서 최고 61.1%의 익스플로잇 성공률을 보인 AI 에이전트들이, 실제 사건 22건에 대해서는 5개 에이전트 × 22건 = 총 110쌍에서 단 한 건도 공격을 끝까지 성공시키지 못했다. 에이전트들은 대부분 계약 코드를 읽고 블록체인 상태를 조회하는 데 대부분의 시간을 소비하다가 수익 있는 공격 전략에 도달하지 못했다. 특히 여러 계약에 걸친 복잡한 상호작용, 플래시론(flash loan, 담보 없이 같은 거래 내에서 빌리고 갚는 기법)과 토큰 승인을 연쇄적으로 실행하는 다단계 공격에서 AI는 손을 쓰지 못했다.


취약점 탐지 결과도 주목할 만하다. 클로드 오퍼스(Claude Opus) 4.6이 65%로 가장 높은 탐지율을 기록했고, 간단한 단일 함수 취약점은 대부분의 에이전트가 잡아냈다. 하지만 여러 계약에 걸쳐 있거나 특정 프로토콜의 내부 논리를 깊이 이해해야 하는 취약점은 AI가 전혀 발견하지 못했다. 서명 검증 상태 기계(signature validation state machine)와 관련된 취약점은 26개 에이전트 설정 전체가 탐지율 0%를 기록했다.



도구 선택이 모델보다 결과를 더 바꾼다

연구팀이 같은 모델을 서로 다른 도구와 조합해 비교한 결과, 오픈소스 도구 오픈코드가 6번의 비교 중 5번에서 제조사 전용 도구를 최대 5퍼센트포인트(pp) 차이로 앞섰다. 5pp 차이는 순위를 여러 단계 바꿀 수 있는 수치다. 오픈코드가 클로드 코드나 코덱스 CLI보다 먼저 출시됐음에도 더 나은 성과를 낸 것은, 도구의 최신 여부가 아닌 설계 방식이 결과에 결정적 영향을 미친다는 것을 보여준다.

추론 노력의 증가가 항상 성능을 높이지도 않았다. GPT-5.2 모델은 낮은 추론 노력 설정(37.5%)이 가장 높은 설정(29.2%)보다 오히려 익스플로잇 성능이 높게 나타났다. 추론 토큰을 더 많이 쓸수록 단순한 공격 경로를 과도하게 분석하다 정답을 놓치는 현상이 생기는 것으로 연구팀은 추정했다. 모델 순위도 탐지와 익스플로잇 사이에서 크게 요동쳤다. 탐지 2위였던 제미나이 3.1 프로(Gemini 3.1 Pro)가 익스플로잇에서는 10위로 떨어졌고, 탐지 꼴찌였던 제미나이 3 프로(Gemini 3 Pro)가 익스플로잇에서는 4위로 올라섰다.



AI 보안 에이전트의 현실적 활용 방향

연구팀은 AI 에이전트가 완전한 자율 보안 감사를 대체할 수 없지만, 제한적이고 실질적인 능력을 갖추고 있다고 결론 내렸다. 개발자 입장에서는 배포 전 AI 에이전트 검사를 보조 수단으로 활용할 수 있다. 접근 권한 누락, 재진입 공격(reentrancy), 산술 오버플로 같은 잘 알려진 취약점 패턴은 AI가 비교적 안정적으로 잡아낸다. 실제 사고 22건 중 6건은 거의 모든 에이전트가 탐지했다. 그러나 탐지율이 최대 47.5%에 불과하기 때문에 AI 검사만 믿으면 절반 이상의 취약점이 미탐지로 남는다는 점을 반드시 인식해야 한다.

보안 감사 기업에게는 AI를 인간 감사자의 업무를 보조하는 첫 번째 필터로 활용하는 방식이 현실적이다. 인간이 프로토콜 맥락을 제공할 때 AI 성능이 크게 오른다는 사실은 EVMbench의 힌트 실험에서도 확인됐다. 힌트가 주어지면 익스플로잇 점수가 65.2%에서 95.7%로 급등한다. AI가 코드베이스의 넓은 영역을 빠르게 훑고, 인간 전문가가 프로토콜 고유 지식과 적대적 추론으로 깊이를 더하는 인간 참여형 에이전트 워크플로가 현재로서는 가장 현실적인 방향이다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 스마트 계약(smart contract)이란 무엇이고, 왜 보안이 중요한가요? 스마트 계약은 이더리움(Ethereum) 같은 블록체인 위에서 자동으로 실행되는 프로그램입니다. 한 번 배포되면 수정이 매우 어렵고, 취약점이 발견될 경우 자금이 즉시 빠져나가는 돌이킬 수 없는 피해로 이어질 수 있어 배포 전 보안 검사가 매우 중요합니다.

Q. AI가 스마트 계약 보안을 완전히 자동화하지 못하는 이유는 무엇인가요? AI 에이전트는 잘 알려진 패턴의 취약점은 어느 정도 탐지할 수 있지만, 여러 계약에 걸쳐 복잡하게 얽힌 논리적 취약점이나 특정 프로토콜에 고유한 결함은 현재 AI가 이해하지 못하는 경우가 많습니다. 실제 공격을 처음부터 끝까지 재현하는 데도 아직 성공하지 못하고 있습니다.

Q. 개발자나 보안 기업이 AI 에이전트를 어떻게 활용하는 것이 가장 효과적인가요? AI 에이전트는 보안 감사의 첫 번째 필터로 활용하는 것이 현실적입니다. 흔한 취약점 패턴을 빠르게 걸러내는 역할을 AI에 맡기고, 프로토콜 고유 지식과 판단이 필요한 심층 분석은 인간 전문가가 담당하는 협업 구조가 현재로선 가장 효과적입니다.


기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

이미지 출처: 이디오그램


추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 등만 봐도 설레이는 문짝남 스타는? 운영자 26/04/13 - -
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
13:51 3 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
13:51 2 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
13:51 2 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란
aimatters갤로그로 이동합니다.
13:51 2 0
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
13:51 2 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
13:51 2 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
13:51 2 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
13:51 2 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
13:51 2 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
13:51 2 0
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [1]
aimatters갤로그로 이동합니다.
11:00 277 2
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 12 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 20 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 40 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 15 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 44 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 25 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 14 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 15 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 11 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 12 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 842 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [12]
aimatters갤로그로 이동합니다.
04.16 2407 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 20 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 28 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 26 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 14 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 15 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 46 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 11 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 18 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 17 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 27 0
2427 제약 기업 노바티스 CEO 바스 나라심한 앤트로픽이사회에 합류…의료 AI 전략 강화 신호
aimatters갤로그로 이동합니다.
04.15 11 0
2426 오픈AI, 사이버보안 특화 AI 모델 GPT-5.4-Cyber 제한 출시…앤트로픽 미토스에 맞불
aimatters갤로그로 이동합니다.
04.15 22 0
2425 구글, 인도에 제미나이 '개인화 인텔리전스' 출시…지메일·구글 포토 연동해 맞춤형 AI 비서로
aimatters갤로그로 이동합니다.
04.15 11 0
2424 진격의 앤트로픽, 클로드 코드에 '루틴' 기능 추가 및 UI 전면 재설계…오프라인에서도 자동화 실행
aimatters갤로그로 이동합니다.
04.15 17 0
2423 오픈AI, 개인 금융 AI 스타트업 히로(Hiro) 인수…챗GPT에 재무 계획 기능 탑재 예고
aimatters갤로그로 이동합니다.
04.15 21 0
2422 엔비디아, 양자컴퓨터 가속화 위한 오픈소스 AI 모델 '아이징(Ising)' 공개...비전언어모델까지 추가
aimatters갤로그로 이동합니다.
04.15 20 0
2421 스탠퍼드 AI 인덱스 2026 (6) 일자리 전망에 대한 AI 전문가와 일반인의 전혀 다른 시선
aimatters갤로그로 이동합니다.
04.15 20 0
2420 스탠퍼드 AI 인덱스 2026 (5) AI가 기상 예보를 완전 자동화했지만, 임상 연구 절반은 실제 환자 데이터를 안 쓴다
aimatters갤로그로 이동합니다.
04.15 21 0
2419 스탠퍼드 AI 인덱스 2026 (4) 미국 AI 연구자 1년 만에 80% 감소, 그런데 데이터센터는 왜 세계 1위인가
aimatters갤로그로 이동합니다.
04.15 17 0
2418 스탠퍼드 AI 인덱스 2026 (3) AI 안전 연구는 중국이 미국의 2배인데, 사고 건수는 왜 55% 늘었나
aimatters갤로그로 이동합니다.
04.14 17 0
2417 스탠퍼드 AI 인덱스 2026 (2) AI가 구한 시니어, AI가 밀어낸 주니어 - 세대를 가른 고용 충격
aimatters갤로그로 이동합니다.
04.14 14 0
2416 마이크로소프트, 오픈클로 대체 제품 만든다…상시 작동 AI 에이전트 개발 박차
aimatters갤로그로 이동합니다.
04.14 14 0
2415 뤼튼테크놀로지스, 2025년 매출 471억원…전년 대비 15배 급성장
aimatters갤로그로 이동합니다.
04.14 21 0
2414 스탠퍼드 AI 인덱스 2026 (1) AI는 1년 만에 코딩 시험을 만점 받았지만 아날로그 시계는 못 읽는다
aimatters갤로그로 이동합니다.
04.14 23 0
2413 AI가 소설을 쓰는 시대, 영국 소설가 10명 중 4명은 이미 수입이 줄었다
aimatters갤로그로 이동합니다.
04.14 28 0
2412 AI 벤치마크 점수를 믿지 마라, 버클리 연구팀이 8개를 모두 뚫었다
aimatters갤로그로 이동합니다.
04.14 20 0
2411 TSMC 1분기 매출 35% 급증…AI 반도체 슈퍼사이클 최전선
aimatters갤로그로 이동합니다.
04.14 12 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2