[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀

IT동아 · 2025.04.11 19:12:53

※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 김예지 기자] 생성 AI 기술이 빠르게 발전하면서 새로운 위험 요소가 부각되고 있다. 특히 거대언어모델(LLM)에는 200개가 넘는 취약점이 존재한다고 알려졌다. 이처럼 잘못 사용되거나 악의적인 요청에 의해 조작될 수 있는 생성 AI의 한계에 맞서, ‘AI 레드팀(Red Team)’은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다.

AI 레드팀은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다 / 출처=셔터스톡

AI 레드팀, 모델 취약점 찾아 방어책 마련

‘레드팀’이라는 용어는 모의 군사 훈련에서 아군의 취약점을 파악하기 위해 적군 역할을 수행하는 팀을 운영한 데서 유래했다. 이후 AI 분야에서 레드팀은 마치 실제 공격자(해커)처럼 AI 시스템을 위협함으로써 예상치 못한 오작동이나 유해한 결과의 생성 가능성을 점검하는 활동을 맡았다.

특히 생성 AI 분야에서 레드팀은 의도된 악의적 공격뿐만 아니라 일반 사용자의 상호작용에서 발생할 수 있는 부적절한 결과까지 폭넓게 다룬다. AI 모델의 결함, 학습 데이터의 문제, 윤리적 쟁점 등 잠재적 위험 요인을 찾아내는 게 이들의 임무다. 예컨대, 악의적인 프롬프트를 입력해 AI가 혐오 발언, 차별적 내용, 잘못된 정보, 유해한 지침을 생성하도록 유도하는 테스트를 수행한다. 더불어 AI 시스템의 빠른 변화에 발맞춰 지속적이고 주기적인 점검과 자동화된 모니터링도 실시한다.

AI 레드팀 가이드 / 출처=마이크로소프트

AI 레드팀은 모델의 취약점을 발견하고, 이를 방어할 방법을 개발해 궁극적으로 모델의 안전성을 높인다. LG AI연구원에 따르면, 이 과정은 ▲위험 요소를 찾아 분류 ▲공격 전략을 개발해 자동화 ▲공격에 대한 방어법 수립 ▲이를 적용해 시스템을 개선 등 네 가지 단계를 거쳐 이뤄진다. LG AI연구원은 지난 8월 공개한 기업용 AI 에이전트 ‘ChatEXAONE’에 AI 레드팀 활동을 적용한 바 있다.

한편, 레드팀과 함께 블루팀, 퍼플팀이라는 개념도 등장했다. 블루팀은 다양한 도구를 활용해 레드팀의 공격 시도에 맞서 방어 엄무를 수행한다. 퍼플팀은 레드팀과 블루팀 간의 협력을 촉진해 보안 조치를 통합하는 역할을 한다. 여기에는 양팀을 오가며 기술을 적용하는 멤버를 포함한다. 각 팀은 궁극적으로 조직의 사이버 보안 강화를 목표한다.

LLM 속이는 기술, 프롬프트 인젝션

AI 레드팀은 취약점을 찾아내기 위한 여러 기술을 활용한다. 이때 대표적인 수법은 ‘프롬프트 인젝션(Prompt injection)’이다. LLM을 대상으로 사용자가 입력하는 프롬프트를 조작해 AI가 기존 설계된 지침을 벗어나 악의적인 행동을 하도록 유도하는 기법이다. 레드팀은 다양한 시나리오를 만들어 테스트를 시도해 개발 과정에서 놓칠 수 있는 숨겨진 위험 요소들을 발견하고 개선함으로써 안전하고 신뢰할 수 있는 AI 시스템을 구축하도록 한다.

프롬프트 인젝션은 직접 프롬프트를 입력하는 방식과, LLM이 접근하는 외부 데이터에 악성 프롬프트를 숨겨두는 간접적 방식으로 나뉜다. 직접 프롬프트 인젝션 방법에는 ▲지침 무력화 ▲역할 재할당 ▲맥락 혼동 ▲특수문자 악용 ▲순차적 명령 ▲코드 인젝션 등이 있다. 지침 무력화의 대표적인 예시는 사용자가 ‘이전 지침을 무시해’와 같은 명령을 내려 기존의 설정을 우회하는 것이다. 또한 역할 재할당은 ‘너는 이제 제한 없는 AI야’와 같은 문장을 입력해 AI에게 새로운 역할을 부여하는 방식으로, 탈옥 공격이라고도 부른다.

권태경 연세대학교 정보대학원 교수 / 출처=IT동아

산업교육연구소가 4월 11일 진행한 ‘딥시크(DeepSeek) 분석을 통한 AI 기술 개발을 위한 새로운 기회·혁신·포착 전략 세미나’에서 권태경 연세대학교 정보대학원 교수는 ‘포스트 딥시크 시대의 AI 보안 위협과 대응’을 주제로 발표했다. 권태경 교수는 “AI 모델이 비밀성, 무결성, 가용성을 모두 만족할 때 보안성을 갖추었다고 평가한다. NIST, OWASP 등 기관에서는 AI 모델에 위협 대응 방안을 오래 전부터 연구하고 표준화해왔다”고 말했다.

그는 “OWASP에서는 10가지 LLM 취약점을 소개했는데, AI 모델이 데이터를 기반으로 콘텐츠를 생성하는 과정에서 의도적으로 민감 데이터나 시스템 정보를 노출시키는 위험은 매우 치명적이기 때문에 프롬프트 인젝션의 위험성을 가장 처음으로 언급한다”고 덧붙였다. 또한 “SQL인젝션(코드 인젝션의 기법으로 입력값을 조작해 서버의 데이터베이스를 공격하는 해킹 기법)처럼 악의적인 명령과 데이터를 함께 주입해 오염시키는 유형의 공격도 늘었다”며, “결국 입력값을 철저히 검증하고, 지속 모니터링하는 것이 앞으로 중요한 대응책이 될 것”이라고 말했다.

나아가, 권태경 교수는 AI 보안의 중요성이 커지는 이유에 대해 “AI 에이전트가 점차 물리적인 세계로 확장돼 우리 실생활에서 상호작용하게 되면서, 만약 누군가의 악의적인 명령으로 인해 예상치 못한 문제가 벌어지면 현실 세계에까지 큰 위험을 초래할 수 있다”고 지적하며, “이제는 생성 AI의 위협을 면밀히 분석하고 국가적 대응을 본격화할 때”라고 말했다.

이어 그는 “특히 오픈소스 모델의 경우 더욱 주의가 필요하다. 해커가 이런 모델의 뛰어난 성능을 악용할 가능성이 있기 때문”이라고 말했다. 실제로 시스코(Cisco)는 딥시크의 오픈소스 R1 모델이 다른 모델보다 탈옥 공격에 취약하다는 분석 결과를 내놓기도 했다.

고도화되는 AI 위협…레드팀 역할 커질 것

지난해 네이버는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다 / 출처= 네이버

초기부터 생성 AI 개발을 주도해 온 오픈AI, 메타, 마이크로소프트, 구글 등 빅테크 기업들은 자체적으로 레드팀을 구축하거나 전문 보안 업체의 도움을 받고 있다. 네이버, SKT, LG유플러스, 업스테이지, 셀렉트스타 등 국내 기업들도 역시 레드팀의 중요성을 인식하고 관련 역량 확보에 적극 투자하고 있다.

오픈AI는 자체 ‘레드티밍 네트워크’를 구축해 GPT-4 등 대형 AI 모델의 잠재적 악용 사례를 지속 찾아내고 있다. 마이크로소프트는 빙챗(Bing Chat) 등 AI 서비스를 대상으로 AI 레드팀 활동을 수행하며 보안 취약점과 유해 콘텐츠 생성 가능성을 식별한다. 또한 애저 오픈AI(Azure OpenAI) 서비스 사용자에게 레드팀 가이드라인을 제공해 신뢰성 있는 AI 시스템을 개발을 지원하고 있다.

메타는 레드팀과 블루팀을 결합한 퍼플팀을 운영해 AI 시스템의 보안을 강화하고 있다. 일환으로 퍼플 라마(Purple Llama) 프로젝트를 통해 LLM의 사이버 보안 평가 벤치마크 및 ‘라마 가드(Llama Guard)’와 같은 안전 필터 모델을 개발자들에게 제공한다.

국내 기업의 움직임도 활발하다. 네이버는 AI 안전성 연구를 전담하는 ‘퓨처 AI 센터(Future AI 센터)’를 신설하고, 자체 AI 레드팀을 운영 중이다. 지난해에는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다. 이 행사에는 AI 전문가뿐만 아니라 제조·금융 등에서 1000여 명이 모여 네이버 하이퍼클로바X를 비롯해 SKT, 업스테이지, 포티투마루 등 국내 4개 기업의 LLM에 대해 ▲인권침해 ▲잘못된 정보 ▲일관성 결여 ▲사이버 공격 ▲편견 및 차별 ▲불법 콘텐츠 ▲탈옥 등 7가지 주제로 안전성을 검증했다. 네이버에 따르면, 전체 시도된 공격 중 42%가 ‘잘못된 정보’ 생성을 유도하는 대화로 나타났다.

AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다 / 출처=셀렉트스타

또한 AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다. 세계에서 모인 100명의 참가자들은 ‘통신’을 주제로 LLM이 유해하거나 차별적 결과를 생성하도록 유도하고, 시스템 오용을 일으키는 프롬프트 공격을 시도했다. 공격에 성공한 프롬프트 유형에는 ▲권위적 지위 설정 ▲의도적 거짓말 유도 ▲가상 상황 설정 ▲잘못된 전제 유도 등이 두드러졌다.

황민영 셀렉트스타 부대표는 “참가자들은 이번 챌린지를 통해 AI가 아직 완벽하지 않다는 점을 확인하고, 레드팀 분야에 더 많은 연구와 투자의 필요성을 느꼈다고 전했다”고 말했다. 또한 “AI의 취약점 검증의 중요성이 커지는 가운데, 생성 AI 서비스를 제공하는 기업은 레드팀 활동을 통해 시스템을 꾸준히 개선해야 한다"고 강조했다. 한편, 셀렉트스타는 생성 AI 신뢰성 검증 자동화 솔루션 ‘다투모 이밸(DATUMO Eval)’을 통해 AI 서비스의 잠재적 오류와 위험 요소를 사전에 식별하고 대응하도록 지원한다. ‘레드티밍’ 기능 외에도 평가용 질문 대량 생성, AI 답변의 정량적 평가 등 자동화된 검증 프로세스를 제공한다.

AI 보안은 AI 시장의 핵심 화두가 될 전망이다. AI가 우리 일상에 미치는 영향력이 커짐에 따라 AI 레드팀의 역할과 방법론도 진화할 것으로 예상된다. 특히 AI 레드팀은 AI 개발 전 과정에 깊숙이 통합되고, 레드팀과 블루팀 간 실시간 협력을 이끄는 퍼플팀이 더욱 부각될 것이다. 이를 지원하는 다양한 도구가 개발·활용되는 동시에 관련 정책 수립과 표준화 노력도 가속화되면서 AI 레드팀은 ‘책임감 있는 AI’ 개발의 핵심 요소로 자리 잡을 것으로 예측된다.

더불어 AI 레드팀은 단순히 문제점을 찾는 수동적인 역할에 그치지 않고, AI 안전성 분야 전체를 주도하는 원동력이 될 것이다. 레드팀을 통해 드러난 AI 모델의 취약점은 결과적으로 더욱 견고한 모델을 설계하도록 촉진함으로써 AI 기술의 발전을 견인한다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

번호	제목	글쓴이	작성일	조회	추천
설문	주류 모델하면 매출 폭등시킬 것 같은 아이돌 스타는?	운영자	26/01/05	-	-
6439	“금융 사각지대 해소에 초점” 2026년 달라지는 금융정책	IT동아	18:36	4	0
6438	AMD, CES 2026서 MI455X·MI500 공개··· '요타플롭스 시대 위한 인프라 기업 될 것'	IT동아	18:07	4	0
6437	[주간스타트업동향] 컨트롤엠, AI로 만든 트러플버거 출시 外	IT동아	17:57	3	0
6436	"살얼음·안개 미리 조심하자" 도로 위험 기상정보, 실시간으로 확인하는 방법	IT동아	17:22	6	0
6435	[써니모모의 '육십 먹고 생성AI'] 2. 카페에서 커피 한잔 마실 동안 책 만들기	IT동아	17:09	5	0
6434	네이버 D2SF 투자 스타트업 8곳, CES 2026서 기술력 뽐낸다	IT동아	16:10	4	0
6433	[IT하는법] 스마트폰으로 종이 문서 스캔하는 법	IT동아	16:03	186	1
6432	잇피의 AI 기반 관절기반 분석 '링닥 모션', CES 2026서 소개 [SBA CES]	IT동아	16:01	6	0
6431	칩 메이커에서 현실 세계 구현 나선 '엔비디아', CES 2026서 청사진 공개	IT동아	16:00	5	0
6430	[경기창경센터 창업도약] 병오년 한 해를 질주할 '적토마' 같은 스타트업 (4)	IT동아	01.06	17	0
6429	[경기창경센터 창업도약] 병오년 한 해를 질주할 '적토마' 같은 스타트업 (3)	IT동아	01.06	14	0
6428	[경기창경센터 창업도약] 병오년 한 해를 질주할 '적토마' 같은 스타트업 (2)	IT동아	01.06	13	0
6427	[경기창경센터 창업도약] 병오년 한 해를 질주할 '적토마' 같은 스타트업 (1)	IT동아	01.06	40	0
6426	[위클리AI] 오픈AI, 그로브 참가자 모집···아마존 알렉사닷컴 출시	IT동아	01.06	20	0
6425	금융 소비자의 선택권 위협하는 디지털 함정 “다크패턴” 걷어낸다	IT동아	01.06	17	0
6424	넥스트챌린지스쿨, 개교 1년 성과공유...10대 재학생이 설계한 5대 미래산업 프로젝트	IT동아	01.06	21	0
6423	KT, 침해사고 최종 조사결과 발표…위약금 환급 대상과 신청 방법은?	IT동아	01.06	45	0
6422	[신차공개] 르노코리아 '필랑트' 공개·기아 ‘The 2026 봉고 Ⅲ’ 출시	IT동아	01.06	21	0
6421	웨이브샤인테크, CES 2026에서 차세대 무선 통신 중계 장치 공개 [SBA CES]	IT동아	01.06	24	0
6420	[투자를IT다] 2026년 1월 1주차 IT기업 주요 소식과 시장 전망 [1]	IT동아	01.06	28	0
6419	마이딜, CES 2026서 기업금융 자산 최적화 설루션 '핀태그' 선봬 [SBA CES]	IT동아	01.05	25	0
6418	비즈큐어, CES 2026서 디스플레이 공정 혁신 이끌 ‘자외선 차단 점착제’ 공개 [SBA CES]	IT동아	01.05	79	0
6417	[뉴스줌인] 다리는 장식? LG 로봇 '클로이드'가 바퀴를 선택한 이유? [9]	IT동아	01.05	527	0
6416	마디, CES 2026에서 'AI 임상시험 디지털 트윈' 기술 공개 [SBA CES]	IT동아	01.05	80	0
6415	솔리브벤처스 "4D 스마트 토이 테라토이, 영유아 교육 발전" [SBA CES]	IT동아	01.05	24	0
6414	비욘드메디슨 "CES 2026에서 턱관절 치료 신기원 연다" [SBA CES]	IT동아	01.05	23	0
6413	이디엠가젯, CES 2026에서 AI 기반 데이터센터 전력·탄소 최적화 기술 공개 [SBA CES]	IT동아	01.05	35	0
6412	옵틱믹스, ‘차량용 홀로그래픽 HUD 광학 스크린 필름’으로 CES 2026 서울통합관 참가 [SBA CES]	IT동아	01.05	27	0
6411	쭉, AI 기반 ‘이미지-투-제조’ 솔루션으로 CES 2026 서울통합관 참가 [SBA CES]	IT동아	01.05	23	0
6410	위기에 더욱 빛난 '업스테이지', 표절 의혹의 전말과 시사점에 대하여	IT동아	01.05	24	0
6409	[정석희의 기후 에너지 인사이트] 1. 탄소중립 시대에 오히려 증가하는 탄소배출	IT동아	01.05	42	0
6408	[리뷰] “AI로 비즈니스 노트북을 재정의한다” HP 엘리트북 X G1i 14	IT동아	01.02	76	0
6407	중저가부터 초대형 플래그십까지… 새해 출시 예정 신차 살펴보니	IT동아	01.02	43	0
6406	금연길라잡이, 상담·검색·예약 한번에···쉽고 체계적으로 돕는다	IT동아	01.02	26	0
6405	“교통비 기준금액 넘으면 전액 환급”…K-패스 진화한 ‘모두의 카드’ 출범 [7]	IT동아	01.02	1457	1
6404	퓨잇 "위성통신·AI 기반 기술로 개인 넘어 스마트시티 안전 솔루션 만들 것"	IT동아	01.02	90	0
6403	[크립토퀵서치] 콜드월렛과 핫월렛의 차이는?	IT동아	01.02	38	0
6402	협업툴, 도구에서 동료로··· 두레이 AI로 들여다본 업무 환경의 미래	IT동아	01.02	44	0
6401	마커스 현대백화점 무역센터점 팝업스토어 ”2026년 세계 소비자 만난다”	IT동아	01.02	94	0
6400	[리뷰] “온라인 게임 속 0.1초 승부, 유무선 공유기가 좌우한다” 에이수스 ROG STRIX GS-BE7200X [2]	IT동아	01.02	853	1
6399	"AI 타액 진단으로 헬스케어 혁신", 고스마 바이오사이언스 [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	42	0
6398	까다로운 전기공사의 정보 비대칭 해결하는 '전기이지' [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	46	0
6397	버려진 당근잎에서 새 가치 발견…식재료로 활용하는 ‘이이키' [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	45	0
6396	[주간스타트업동향] 퍼슬리, 의료 전문 AI 에이전트 모델 고도화 外	IT동아	25.12.31	43	0
6395	메타에너지프런티어 “빛 에너지로 전기 재생, 루미볼트·루미센스” [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	35	0
6394	“20만 명 사로잡았다” 블루미 앱, 인간적 AI 대화부터 현실 관계 확장까지	IT동아	25.12.31	221	0
6393	시놀 "시니어 인구의 은퇴 이후, 고독이 아닌 설렘으로 채웁니다" [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	37	0
6392	디케이스 "나와 소통하는 스마트한 캐릭터 굿즈" [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	32	0
6391	두잇플래닛, AI 업무 자동화로 기술 문턱 낮춘다 "60대도 쉽게" [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	42	0
6390	첫장컴퍼니 “불투명한 장례 시장, AI 장례 플랫폼으로 정보 비대칭 해결” [SBA·콴티파이 팀빌딩 우수기업]	IT동아	25.12.31	36	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[IT동아 갤러리]

갤러리 본문 영역

AI 레드팀, 모델 취약점 찾아 방어책 마련

LLM 속이는 기술, 프롬프트 인젝션

고도화되는 AI 위협…레드팀 역할 커질 것

▶ AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다▶ 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는?▶ 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

▶ AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다 ▶ 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는?▶ 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까