디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공

aimatters갤로그로 이동합니다. 2026.03.05 19:28:56
조회 84 추천 0 댓글 0


챗GPT가 작성한 코드인지, 클로드가 만든 코드인지 구별할 수 있을까? 최근 중국 쓰촨대학교 연구팀이 AI가 생성한 코드의 출처를 추적하는 기술을 개발해 주목받고 있다. 마치 필적 감정처럼 각 AI 모델이 남긴 '코딩 지문'을 분석해 누가 작성했는지 밝혀내는 이 기술은, AI 코드 생성이 보편화된 시대에 보안 사고와 저작권 분쟁을 해결할 새로운 열쇠가 될 전망이다.



Figure 1. An overview of the proposed framework.

Figure 1. An overview of the proposed framework.





91,804개 코드 샘플로 만든 세계 최초 AI 코드 추적 데이터셋

연구팀은 딥시크, 클로드, 큐원, 챗GPT 등 4개의 주요 AI 모델이 생성한 91,804개의 코드 샘플을 수집했다. 이는 Python, Java, C, Go 등 4개 프로그래밍 언어를 망라하며, 주석이 있는 버전과 없는 버전을 모두 포함한 대규모 데이터셋이다. 이 데이터셋은 AI 코드 출처 추적 연구를 위한 세계 최초의 공개 벤치마크로, 연구팀은 이를 통해 각 AI 모델이 코드를 작성할 때 남기는 독특한 패턴을 분석할 수 있었다.

흥미로운 점은 같은 프로그래밍 과제를 주더라도 AI 모델마다 미묘하게 다른 방식으로 코드를 작성한다는 사실이다. 마치 사람마다 글씨체가 다르듯, AI 모델도 각자의 '코딩 스타일'을 가지고 있다. 이는 각 모델이 학습한 데이터, 내부 구조, 그리고 코드를 생성하는 방식이 다르기 때문이다. 예를 들어 어떤 AI는 변수명을 짧게 짓는 경향이 있고, 다른 AI는 불필요한 라이브러리를 자주 불러오는 습관을 보인다.



"기능은 같지만 스타일은 다르다"…AI 코드의 이중성 발견

연구팀이 주목한 핵심은 AI가 생성한 코드에 두 가지 정보가 동시에 담겨 있다는 점이다. 첫 번째는 '출처와 무관한 정보(Source-Agnostic Information)'로, 프로그래밍 과제 자체가 요구하는 기능적 의미다. 예를 들어 "두 숫자를 더하는 함수"를 만들라고 하면, 어떤 AI든 덧셈 로직을 구현해야 한다. 두 번째는 '출처 특정 정보(Source-Specific Information)'로, 각 AI 모델만의 독특한 코딩 습관과 구조적 특징이다.

문제는 기존의 AI 코드 탐지 기술들이 이 두 가지를 구분하지 못했다는 것이다. 대부분의 방법은 "사람이 쓴 코드인가, AI가 쓴 코드인가"를 판별하는 데 집중했고, 여러 AI 중 누가 작성했는지까지 구별하지는 못했다. 이는 마치 "이 글씨가 손으로 쓴 것인지, 프린터로 출력한 것인지"는 알 수 있지만, "어떤 프린터 모델로 출력했는지"는 모르는 상황과 비슷하다.

연구팀은 논문의 방법론(Methodology) 섹션에서 이 문제를 해결하기 위해 '분리된 코드 출처 추적 네트워크(Disentangled Code Attribution Network, DCAN)'라는 새로운 시스템을 제안했다. 이 시스템은 코드에서 과제 자체의 의미와 AI 모델 특유의 스타일을 분리해낸다. 마치 요리에서 기본 레시피와 셰프만의 특별한 손맛을 구분하는 것처럼, 코드의 기능적 부분과 스타일적 부분을 나누어 분석하는 것이다.



보안 사고 발생 시 책임 소재 명확히…실용적 가치 주목

이 기술이 중요한 이유는 실제 소프트웨어 개발 현장에서 발생하는 문제들 때문이다. 최근 많은 개발자들이 챗GPT나 클로드 같은 AI를 활용해 코드를 작성하고 있다. 문제는 이렇게 만들어진 코드에서 보안 취약점이나 악성 로직이 발견됐을 때, 어떤 AI가 만들었는지 알 수 없다는 점이다. 또한 저작권 분쟁이나 라이선스 충돌이 발생했을 때도 코드의 출처를 밝혀야 책임 소재를 명확히 할 수 있다.

연구팀은 논문의 서론(Introduction)에서 이러한 상황을 'LLM 코드 출처 추적(LLMCSA)' 문제로 정의했다. 이는 단순히 학술적 호기심이 아니라, 소프트웨어 거버넌스, 보안 책임성, 지적재산권 준수 등 실질적인 산업 문제를 해결하기 위한 것이다. 예를 들어 금융 앱에서 보안 결함이 발견됐을 때, 그 코드가 어떤 AI에서 나왔는지 알 수 있다면 해당 AI 제공업체에 책임을 물을 수 있고, 같은 AI로 만든 다른 코드들도 점검할 수 있다.

실험 결과는 고무적이었다. DCAN 시스템은 다양한 프로그래밍 언어와 상황에서 신뢰할 만한 출처 추적 성능을 보여줬다. 이는 AI가 생성한 코드에도 각 모델만의 '디지털 지문'이 존재하며, 이를 추적하는 것이 가능하다는 것을 입증한다. 마치 범죄 현장에서 지문을 채취해 용의자를 특정하듯, 코드에서도 생성 모델을 특정할 수 있게 된 것이다.



기존 방법론의 한계 극복…대조 학습으로 미묘한 차이 포착

기존의 코드 출처 추적 방법들은 크게 두 가지로 나뉜다. 하나는 '능동적 방법'으로, AI가 코드를 생성할 때 미리 워터마크를 심어놓는 것이다. 예를 들어 특정 유니코드 패턴을 삽입하거나, 문법적으로 불필요한 구조를 일부러 넣는 식이다. 하지만 이 방법은 AI 생성 과정에 직접 접근할 수 있어야 하므로, 이미 만들어진 코드를 분석하는 실제 상황에서는 사용할 수 없다.

다른 하나는 '수동적 방법'으로, 이미 생성된 코드만 보고 출처를 추적하는 것이다. 최근 연구들은 특정 프로그래밍 언어에서 나타나는 스타일 패턴을 분석하거나, 수작업으로 만든 특징들을 기계학습에 활용했다. 하지만 이런 접근은 언어마다 다시 특징을 설계해야 하고, 여러 언어에 범용적으로 적용하기 어렵다는 한계가 있었다.

연구팀의 DCAN은 이러한 한계를 극복했다. 대조 학습(Contrastive Learning)이라는 기법을 활용해, 같은 과제를 해결한 서로 다른 AI의 코드들을 비교하면서 각 모델 특유의 신호를 자동으로 추출한다. 이는 마치 쌍둥이의 미묘한 차이를 찾아내듯, 겉보기에 비슷해 보이는 코드들 사이의 미세한 스타일 차이를 포착하는 것이다. 중요한 점은 이 과정이 자동화되어 있어, 새로운 프로그래밍 언어나 AI 모델이 추가되어도 쉽게 확장할 수 있다는 것이다.



일상 속 AI 코드의 숨겨진 위험…추적 기술이 필수인 이유

일반인들에게는 낯설게 느껴질 수 있지만, AI가 생성한 코드는 이미 우리 일상 곳곳에 스며들어 있다. 스마트폰 앱, 온라인 쇼핑몰, 은행 시스템 등 많은 소프트웨어가 개발 과정에서 AI의 도움을 받는다. 문제는 이렇게 만들어진 코드가 항상 안전하다고 보장할 수 없다는 점이다.

예를 들어 의료 상담 앱의 코드 일부가 AI로 작성됐는데, 그 코드에 개인정보 유출 취약점이 있다고 가정해보자. 만약 어떤 AI가 그 코드를 만들었는지 알 수 있다면, 같은 AI로 만든 다른 의료 앱들도 즉시 점검할 수 있다. 또한 교육용 프로그래밍 플랫폼에서 학생들이 제출한 코드가 실제로 본인이 작성한 것인지, AI가 대신 만든 것인지 판별할 수도 있다.

연구팀이 관련 연구(Related Work) 섹션에서 언급했듯, 기존 연구들은 주로 "사람이 쓴 코드 vs AI가 쓴 코드"를 구분하는 데 집중했다. 하지만 실제 산업 현장에서는 "어떤 AI가 쓴 코드인가"를 아는 것이 더 중요한 경우가 많다. 이는 책임 추적, 품질 관리, 보안 감사 등 다양한 목적으로 활용될 수 있다. 투자 자문 앱이 잘못된 알고리즘으로 손실을 발생시켰을 때, 그 코드의 출처를 알면 법적 책임 소재를 명확히 할 수 있는 것처럼 말이다.

이번 연구는 AI 시대의 소프트웨어 개발에서 투명성과 책임성을 확보하는 첫걸음이다. 앞으로 AI가 더 많은 코드를 작성하게 될수록, 이러한 추적 기술의 중요성은 더욱 커질 것이다. 마치 식품에 원산지 표시가 의무화된 것처럼, AI가 생성한 코드에도 '제조사 표시'가 필요한 시대가 오고 있는 것이다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI가 작성한 코드와 사람이 작성한 코드는 어떻게 다른가요?

A. AI가 작성한 코드는 문법적으로는 정확하지만, 불필요한 라이브러리를 자주 불러오거나 특정 변수명 패턴을 반복하는 등 미묘한 스타일 차이가 있습니다. 또한 AI는 자신이 이전에 생성한 코드를 다시 작성할 때 스타일 변화가 적은 특징을 보입니다. 이러한 차이는 육안으로 구별하기 어렵지만, 기계학습 모델을 통해 감지할 수 있습니다.

Q. 이 기술이 실제로 어디에 사용될 수 있나요?

A. 보안 취약점이 발견됐을 때 원인 AI를 추적하거나, 저작권 분쟁 시 코드 출처를 증명하거나, 교육 현장에서 학생들의 과제 대필 여부를 판별하는 데 활용될 수 있습니다. 또한 기업이 특정 AI 서비스의 코드 품질을 평가하거나, 소프트웨어 감사 과정에서 AI 생성 코드의 비율을 파악하는 데도 유용합니다.

Q. 모든 AI 모델의 코드를 구별할 수 있나요?

A. 현재 연구는 DeepSeek, Claude, Qwen, ChatGPT 등 4개 주요 모델을 대상으로 했지만, 시스템 구조상 새로운 AI 모델이 추가되어도 확장이 가능합니다. 다만 AI 모델들이 계속 업데이트되면서 코딩 스타일이 변할 수 있으므로, 추적 시스템도 지속적으로 학습 데이터를 업데이트해야 정확도를 유지할 수 있습니다.


기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.

논문명: Code Fingerprints: Disentangled Attribution of LLM-Generated Code

이미지 출처: AI 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
이슈 [디시人터뷰] '쪼와요~ 쪼와요~’ 캐릭터에 생명을 불어넣는 성우 박시윤 운영자 26/04/17 - -
설문 메시지 읽씹 잘 할 것 같은 이미지의 스타는? 운영자 26/04/20 - -
2477 애플, iOS 27서 시리 전면 개편…구글 제미나이 기반 AI 챗봇으로 탈바꿈 [8]
aimatters갤로그로 이동합니다.
11:00 433 0
2476 로보락, 높이 7.95cm 초슬림 플래그십 로봇청소기 'S10 MaxV Slim' 출시…이중 문턱 8.8cm 통과
aimatters갤로그로 이동합니다.
11:00 7 0
2475 위로보틱스, 보행 보조 로봇 구독 서비스 'WIM 프리미엄' 출시…웨어러블 로봇의 'RaaS' 시대 열다
aimatters갤로그로 이동합니다.
11:00 4 0
2474 소니, NAB 2026서 방송·제작 혁신 솔루션 공개…'R 시리즈' 카메라·MOXELA 플랫폼 선봬
aimatters갤로그로 이동합니다.
11:00 7 0
2473 앤트로픽 기업가치 8,000억 달러 평가…연매출 300억 달러로 오픈AI 추월
aimatters갤로그로 이동합니다.
11:00 4 0
2472 MIT 테크놀로지 리뷰, 'AI 현재 10대 이슈' 첫 발표…AI 동반자·바이브 코딩 등 선정
aimatters갤로그로 이동합니다.
11:00 5 0
2471 구글 클라우드 넥스트 2026 D-2…제미나이를 클라우드 임베딩해 사용하는 에이전틱 AI 시대
aimatters갤로그로 이동합니다.
11:00 6 0
2470 NAB Show 2026 개막…AI, 미디어 제작 현장의 핵심 인프라로 자리잡다
aimatters갤로그로 이동합니다.
11:00 4 0
2469 EU AI 법, 채용 편향 감사 의무화 시행 105일 전…AI로 채용하면 인간 감사 받아야 한다
aimatters갤로그로 이동합니다.
11:00 4 0
2468 챗GPT로 답을 복붙해도 점수는 같았다, 단 한 가지만 빼고
aimatters갤로그로 이동합니다.
11:00 5 0
2467 챗GPT에 아이디어를 물으면 안 되는 이유, 독일 연구팀이 밝혔다
aimatters갤로그로 이동합니다.
11:00 7 0
2466 회사 코드에 AI가 쓴 코드가 몇 줄이나 있지 추적하는 기술이 나왔다
aimatters갤로그로 이동합니다.
11:00 5 0
2465 루마 AI·원더 프로젝트, AI 하이브리드 영화 제작사 '이노베이티브 드림스' 출범… 사람만 찍으면 배경 자동으로 입힌다
aimatters갤로그로 이동합니다.
04.17 28 0
2464 오픈AI, 생명과학 특화 AI 모델 'GPT-로잘린드' 출시… 신약 개발·유전체 연구 가속화
aimatters갤로그로 이동합니다.
04.17 65 0
2463 베이직인터내셔널, AI가 자녀 목소리로 어르신과 대화하는 '아우라보이스' 출시… 정신의학계와 시니어 돌봄 혁신
aimatters갤로그로 이동합니다.
04.17 17 0
2462 DJI, 1인치 센서 탑재 포켓 짐벌 카메라 'Osmo Pocket 4' 출시… 4K/240fps·14스톱 다이내믹 레인지
aimatters갤로그로 이동합니다.
04.17 35 0
2461 '타노스가 인류 절반을 없앤다면?' 넷플릭스팀 AI가 영상으로 답했다
aimatters갤로그로 이동합니다.
04.17 40 0
2460 오픈AI, 코덱스 '코딩 도구' 넘어 컴퓨터 전체 제어하는 AI 에이전트로 진화
aimatters갤로그로 이동합니다.
04.17 38 0
2459 스텔란티스, 마이크로소프트와 AI 협약 체결… 설계∙엔지니어링 등 차량 및 운영 전 분야 AI 가속
aimatters갤로그로 이동합니다.
04.17 18 0
2458 타이거글로벌 투자 AI 스타트업 업스케일, 20억 달러 기업가치 펀딩 협상 착수
aimatters갤로그로 이동합니다.
04.17 19 0
2457 앤트로픽, 클로드 일부 사용자에 신분증·셀카 제출 요구… 프라이버시 논란 [9]
aimatters갤로그로 이동합니다.
04.17 1502 11
2456 영상 편집도 '딸깍' 되나... 편집 플랫폼 에이비드-구글 클라우드, 에이전틱 AI 미디어 제작 파트너십 체결
aimatters갤로그로 이동합니다.
04.17 20 0
2455 구글 너마저... 제미나이, 미 국방부 기밀 환경 배치 협상, AI 군사 활용 논의 본격화
aimatters갤로그로 이동합니다.
04.17 38 0
2454 2026 글로벌 퀀텀+AI 챌린지 공식 출범… 총 상금 20만 달러·5개 기업 도전 과제
aimatters갤로그로 이동합니다.
04.17 23 0
2453 앤트로픽, 클로드 오퍼스 4.7 정식 출시… 미공개 '미토스'엔 여전히 못 미쳐
aimatters갤로그로 이동합니다.
04.17 33 0
2452 구글, AI 모드 크롬에 통합… 주소창도 AI 프롬프트창으로 변신, 스킬 기능으로 프롬프트 저장
aimatters갤로그로 이동합니다.
04.17 31 0
2451 사진 4장만 본 AI가 수천 장 기억한 AI를 이겼다
aimatters갤로그로 이동합니다.
04.17 37 1
2450 AI가 덜 생각할수록 더 잘 푼다, 추론 비용을 62% 줄인 BCR의 역설 [13]
aimatters갤로그로 이동합니다.
04.17 1573 9
2449 트래블러스맵, 상품 기획부터 예약·운영까지 AI가 전 과정 처리하는 'AI 네이티브' 여행 플랫폼 출시
aimatters갤로그로 이동합니다.
04.16 20 0
2448 PixAI, 프롬프트 없이 채팅만으로 완성하는 AI 창작 에이전트 ‘Mio.2’ 출시…총상금 3,600달러 챌린지도 진행
aimatters갤로그로 이동합니다.
04.16 32 0
2447 마키나락스, 현장에서 작동하는 AI 만드는 FDE 중심 대규모 인재 채용
aimatters갤로그로 이동합니다.
04.16 99 0
2446 딥엘, 실시간 음성 간 번역 'Voice-to-Voice' 공개…글로벌 비즈니스 언어 장벽 해소 지원
aimatters갤로그로 이동합니다.
04.16 29 0
2445 AI도 처음 본 단어들을 서로 구분 못 한다
aimatters갤로그로 이동합니다.
04.16 59 0
2444 사이버펑크 2077 데이터로 훈련한 AI, 현실 영상 분석에서 기존 모델을 앞서다
aimatters갤로그로 이동합니다.
04.16 41 0
2443 'AI가 대화 상대도, 코치도 된다' 인간-AI 대화 연구 플랫폼 '다이애딕' 공개
aimatters갤로그로 이동합니다.
04.16 26 0
2442 텔레그램서 판매되는 불법 도구로 은행 생체 보안 우회 – 캄보디아 사기 센터서 실제 사용
aimatters갤로그로 이동합니다.
04.16 25 0
2441 2026년 1분기 벤처투자 3,000억 달러 신기록 – AI가 전체의 80% 차지
aimatters갤로그로 이동합니다.
04.16 19 0
2440 오픈AI, 에이전트 SDK 업데이트 – 샌드박스 기능으로 기업 AI 에이전트 안전성 강화
aimatters갤로그로 이동합니다.
04.16 19 0
2439 위고비 제약사 노보 노디스크-오픈AI 전략 파트너십 – AI로 신약 개발 속도 높인다
aimatters갤로그로 이동합니다.
04.16 865 2
2438 클로드 '몰래 성능 낮췄다' 논란 – 개발자들 집단 반발... 성능 너프 실제로 밝혀져 [13]
aimatters갤로그로 이동합니다.
04.16 2510 14
2437 앤트로픽, VC로부터 8,000억 달러 기업가치 투자 제안 잇따라
aimatters갤로그로 이동합니다.
04.16 28 0
2436 구글 크롬에 AI 'Skills' 기능 추가 – 자주 쓰는 제미나이 프롬프트 원클릭으로
aimatters갤로그로 이동합니다.
04.16 35 0
2435 구글 제미나이 '퍼스널 인텔리전스' 글로벌 출시 – 유럽만 제외
aimatters갤로그로 이동합니다.
04.16 38 0
2434 앤트로픽 클로드 서비스 장애 – 4월 15일 수시간 접속 불가 사태
aimatters갤로그로 이동합니다.
04.16 20 0
2433 구글, 제미나이 맥 네이티브 앱 공개 – 단축키 하나로 AI 비서 즉시 호출
aimatters갤로그로 이동합니다.
04.16 25 1
2432 스마트북스, 김덕진 소장의 '피지컬 AI 2026: 이미 시작된 미래' 출간…AI 패권 결정짓는 3년의 골든타임
aimatters갤로그로 이동합니다.
04.15 60 0
2431 원티드랩, 기업용 통합 AX 플랫폼 '엔노이아(ennoia)' 공식 론칭…전사적 AI 전환 시장 공략
aimatters갤로그로 이동합니다.
04.15 21 0
2430 다쏘시스템-그룹 로쉐, 버추얼 트윈으로 화장품 포뮬레이션 혁신…개발 기간 20% 단축
aimatters갤로그로 이동합니다.
04.15 30 0
2429 뉴럴링크 공동창업자 맥스 호닥의 사이언스 코퍼레이션, 인간 뇌 최초 센서 이식 준비 완료
aimatters갤로그로 이동합니다.
04.15 29 0
2428 앤트로픽, 미토스 공개 전 미국·캐나다 정부에 사전 브리핑…'방어자 우선' 원칙 실천
aimatters갤로그로 이동합니다.
04.15 40 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2