[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀

IT동아 · 2025.04.11 19:12:53

※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 김예지 기자] 생성 AI 기술이 빠르게 발전하면서 새로운 위험 요소가 부각되고 있다. 특히 거대언어모델(LLM)에는 200개가 넘는 취약점이 존재한다고 알려졌다. 이처럼 잘못 사용되거나 악의적인 요청에 의해 조작될 수 있는 생성 AI의 한계에 맞서, ‘AI 레드팀(Red Team)’은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다.

AI 레드팀은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다 / 출처=셔터스톡

AI 레드팀, 모델 취약점 찾아 방어책 마련

‘레드팀’이라는 용어는 모의 군사 훈련에서 아군의 취약점을 파악하기 위해 적군 역할을 수행하는 팀을 운영한 데서 유래했다. 이후 AI 분야에서 레드팀은 마치 실제 공격자(해커)처럼 AI 시스템을 위협함으로써 예상치 못한 오작동이나 유해한 결과의 생성 가능성을 점검하는 활동을 맡았다.

특히 생성 AI 분야에서 레드팀은 의도된 악의적 공격뿐만 아니라 일반 사용자의 상호작용에서 발생할 수 있는 부적절한 결과까지 폭넓게 다룬다. AI 모델의 결함, 학습 데이터의 문제, 윤리적 쟁점 등 잠재적 위험 요인을 찾아내는 게 이들의 임무다. 예컨대, 악의적인 프롬프트를 입력해 AI가 혐오 발언, 차별적 내용, 잘못된 정보, 유해한 지침을 생성하도록 유도하는 테스트를 수행한다. 더불어 AI 시스템의 빠른 변화에 발맞춰 지속적이고 주기적인 점검과 자동화된 모니터링도 실시한다.

AI 레드팀 가이드 / 출처=마이크로소프트

AI 레드팀은 모델의 취약점을 발견하고, 이를 방어할 방법을 개발해 궁극적으로 모델의 안전성을 높인다. LG AI연구원에 따르면, 이 과정은 ▲위험 요소를 찾아 분류 ▲공격 전략을 개발해 자동화 ▲공격에 대한 방어법 수립 ▲이를 적용해 시스템을 개선 등 네 가지 단계를 거쳐 이뤄진다. LG AI연구원은 지난 8월 공개한 기업용 AI 에이전트 ‘ChatEXAONE’에 AI 레드팀 활동을 적용한 바 있다.

한편, 레드팀과 함께 블루팀, 퍼플팀이라는 개념도 등장했다. 블루팀은 다양한 도구를 활용해 레드팀의 공격 시도에 맞서 방어 엄무를 수행한다. 퍼플팀은 레드팀과 블루팀 간의 협력을 촉진해 보안 조치를 통합하는 역할을 한다. 여기에는 양팀을 오가며 기술을 적용하는 멤버를 포함한다. 각 팀은 궁극적으로 조직의 사이버 보안 강화를 목표한다.

LLM 속이는 기술, 프롬프트 인젝션

AI 레드팀은 취약점을 찾아내기 위한 여러 기술을 활용한다. 이때 대표적인 수법은 ‘프롬프트 인젝션(Prompt injection)’이다. LLM을 대상으로 사용자가 입력하는 프롬프트를 조작해 AI가 기존 설계된 지침을 벗어나 악의적인 행동을 하도록 유도하는 기법이다. 레드팀은 다양한 시나리오를 만들어 테스트를 시도해 개발 과정에서 놓칠 수 있는 숨겨진 위험 요소들을 발견하고 개선함으로써 안전하고 신뢰할 수 있는 AI 시스템을 구축하도록 한다.

프롬프트 인젝션은 직접 프롬프트를 입력하는 방식과, LLM이 접근하는 외부 데이터에 악성 프롬프트를 숨겨두는 간접적 방식으로 나뉜다. 직접 프롬프트 인젝션 방법에는 ▲지침 무력화 ▲역할 재할당 ▲맥락 혼동 ▲특수문자 악용 ▲순차적 명령 ▲코드 인젝션 등이 있다. 지침 무력화의 대표적인 예시는 사용자가 ‘이전 지침을 무시해’와 같은 명령을 내려 기존의 설정을 우회하는 것이다. 또한 역할 재할당은 ‘너는 이제 제한 없는 AI야’와 같은 문장을 입력해 AI에게 새로운 역할을 부여하는 방식으로, 탈옥 공격이라고도 부른다.

권태경 연세대학교 정보대학원 교수 / 출처=IT동아

산업교육연구소가 4월 11일 진행한 ‘딥시크(DeepSeek) 분석을 통한 AI 기술 개발을 위한 새로운 기회·혁신·포착 전략 세미나’에서 권태경 연세대학교 정보대학원 교수는 ‘포스트 딥시크 시대의 AI 보안 위협과 대응’을 주제로 발표했다. 권태경 교수는 “AI 모델이 비밀성, 무결성, 가용성을 모두 만족할 때 보안성을 갖추었다고 평가한다. NIST, OWASP 등 기관에서는 AI 모델에 위협 대응 방안을 오래 전부터 연구하고 표준화해왔다”고 말했다.

그는 “OWASP에서는 10가지 LLM 취약점을 소개했는데, AI 모델이 데이터를 기반으로 콘텐츠를 생성하는 과정에서 의도적으로 민감 데이터나 시스템 정보를 노출시키는 위험은 매우 치명적이기 때문에 프롬프트 인젝션의 위험성을 가장 처음으로 언급한다”고 덧붙였다. 또한 “SQL인젝션(코드 인젝션의 기법으로 입력값을 조작해 서버의 데이터베이스를 공격하는 해킹 기법)처럼 악의적인 명령과 데이터를 함께 주입해 오염시키는 유형의 공격도 늘었다”며, “결국 입력값을 철저히 검증하고, 지속 모니터링하는 것이 앞으로 중요한 대응책이 될 것”이라고 말했다.

나아가, 권태경 교수는 AI 보안의 중요성이 커지는 이유에 대해 “AI 에이전트가 점차 물리적인 세계로 확장돼 우리 실생활에서 상호작용하게 되면서, 만약 누군가의 악의적인 명령으로 인해 예상치 못한 문제가 벌어지면 현실 세계에까지 큰 위험을 초래할 수 있다”고 지적하며, “이제는 생성 AI의 위협을 면밀히 분석하고 국가적 대응을 본격화할 때”라고 말했다.

이어 그는 “특히 오픈소스 모델의 경우 더욱 주의가 필요하다. 해커가 이런 모델의 뛰어난 성능을 악용할 가능성이 있기 때문”이라고 말했다. 실제로 시스코(Cisco)는 딥시크의 오픈소스 R1 모델이 다른 모델보다 탈옥 공격에 취약하다는 분석 결과를 내놓기도 했다.

고도화되는 AI 위협…레드팀 역할 커질 것

지난해 네이버는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다 / 출처= 네이버

초기부터 생성 AI 개발을 주도해 온 오픈AI, 메타, 마이크로소프트, 구글 등 빅테크 기업들은 자체적으로 레드팀을 구축하거나 전문 보안 업체의 도움을 받고 있다. 네이버, SKT, LG유플러스, 업스테이지, 셀렉트스타 등 국내 기업들도 역시 레드팀의 중요성을 인식하고 관련 역량 확보에 적극 투자하고 있다.

오픈AI는 자체 ‘레드티밍 네트워크’를 구축해 GPT-4 등 대형 AI 모델의 잠재적 악용 사례를 지속 찾아내고 있다. 마이크로소프트는 빙챗(Bing Chat) 등 AI 서비스를 대상으로 AI 레드팀 활동을 수행하며 보안 취약점과 유해 콘텐츠 생성 가능성을 식별한다. 또한 애저 오픈AI(Azure OpenAI) 서비스 사용자에게 레드팀 가이드라인을 제공해 신뢰성 있는 AI 시스템을 개발을 지원하고 있다.

메타는 레드팀과 블루팀을 결합한 퍼플팀을 운영해 AI 시스템의 보안을 강화하고 있다. 일환으로 퍼플 라마(Purple Llama) 프로젝트를 통해 LLM의 사이버 보안 평가 벤치마크 및 ‘라마 가드(Llama Guard)’와 같은 안전 필터 모델을 개발자들에게 제공한다.

국내 기업의 움직임도 활발하다. 네이버는 AI 안전성 연구를 전담하는 ‘퓨처 AI 센터(Future AI 센터)’를 신설하고, 자체 AI 레드팀을 운영 중이다. 지난해에는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다. 이 행사에는 AI 전문가뿐만 아니라 제조·금융 등에서 1000여 명이 모여 네이버 하이퍼클로바X를 비롯해 SKT, 업스테이지, 포티투마루 등 국내 4개 기업의 LLM에 대해 ▲인권침해 ▲잘못된 정보 ▲일관성 결여 ▲사이버 공격 ▲편견 및 차별 ▲불법 콘텐츠 ▲탈옥 등 7가지 주제로 안전성을 검증했다. 네이버에 따르면, 전체 시도된 공격 중 42%가 ‘잘못된 정보’ 생성을 유도하는 대화로 나타났다.

AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다 / 출처=셀렉트스타

또한 AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다. 세계에서 모인 100명의 참가자들은 ‘통신’을 주제로 LLM이 유해하거나 차별적 결과를 생성하도록 유도하고, 시스템 오용을 일으키는 프롬프트 공격을 시도했다. 공격에 성공한 프롬프트 유형에는 ▲권위적 지위 설정 ▲의도적 거짓말 유도 ▲가상 상황 설정 ▲잘못된 전제 유도 등이 두드러졌다.

황민영 셀렉트스타 부대표는 “참가자들은 이번 챌린지를 통해 AI가 아직 완벽하지 않다는 점을 확인하고, 레드팀 분야에 더 많은 연구와 투자의 필요성을 느꼈다고 전했다”고 말했다. 또한 “AI의 취약점 검증의 중요성이 커지는 가운데, 생성 AI 서비스를 제공하는 기업은 레드팀 활동을 통해 시스템을 꾸준히 개선해야 한다"고 강조했다. 한편, 셀렉트스타는 생성 AI 신뢰성 검증 자동화 솔루션 ‘다투모 이밸(DATUMO Eval)’을 통해 AI 서비스의 잠재적 오류와 위험 요소를 사전에 식별하고 대응하도록 지원한다. ‘레드티밍’ 기능 외에도 평가용 질문 대량 생성, AI 답변의 정량적 평가 등 자동화된 검증 프로세스를 제공한다.

AI 보안은 AI 시장의 핵심 화두가 될 전망이다. AI가 우리 일상에 미치는 영향력이 커짐에 따라 AI 레드팀의 역할과 방법론도 진화할 것으로 예상된다. 특히 AI 레드팀은 AI 개발 전 과정에 깊숙이 통합되고, 레드팀과 블루팀 간 실시간 협력을 이끄는 퍼플팀이 더욱 부각될 것이다. 이를 지원하는 다양한 도구가 개발·활용되는 동시에 관련 정책 수립과 표준화 노력도 가속화되면서 AI 레드팀은 ‘책임감 있는 AI’ 개발의 핵심 요소로 자리 잡을 것으로 예측된다.

더불어 AI 레드팀은 단순히 문제점을 찾는 수동적인 역할에 그치지 않고, AI 안전성 분야 전체를 주도하는 원동력이 될 것이다. 레드팀을 통해 드러난 AI 모델의 취약점은 결과적으로 더욱 견고한 모델을 설계하도록 촉진함으로써 AI 기술의 발전을 견인한다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

번호	제목	글쓴이	작성일	조회	추천
설문	치어리딩 가장 잘할 것 같은 스타는?	운영자	26/05/11	-	-
7054	[시승기] “손 떼도 스스로 달리고 차선까지 변경”…‘캐딜락 에스컬레이드’의 진화	IT동아	05.13	19	0
7053	‘GPS만 35년’ 가민, 아웃도어·스포츠에 강한 이유	IT동아	05.13	36	0
7052	디지털자산 과세 “고액 이용자 중심 제한적 과세 방안이 효율적”	IT동아	05.13	18	0
7051	[주간보안동향] 숨고, 개인정보 유출 의심 정황 공지…선제적 대응 착수 外	IT동아	05.13	1104	3
7050	[주간스타트업동향] 네오덱스, 대만 국립치과병원과 1인 치과 진료 시스템 '히포디' MOU 체결 外	IT동아	05.13	20	0
7049	[AI써봄] 크롬 업데이트로 추가된 'Gemini에게 물어보기'는 쓸만할까?	IT동아	05.13	28	0
7048	[위클리AI] 오라클-삼성전자, 앤트로픽-스페이스X 각각 손잡았다 '파트너십 확장'	IT동아	05.12	91	0
7047	[뉴스줌인] 로봇청소기 시장, ‘직배수’ 넘어 ‘빌트인’으로… 드리미도 공식 참전 [1]	IT동아	05.12	479	0
7046	이학준 마드라스체크 대표 “AI 시대에도 협업 도구 플로우는 쉬움의 미학 담을 것”	IT동아	05.12	23	0
7045	IPO 재도전하는 세레브라스, 단 6개월 만에 다시 도전하는 배경은?	IT동아	05.12	49	0
7044	고민정 멀티캠퍼스 AX러닝혁신센터장, "AI 교육은 진단과 처방이 우선입니다"	IT동아	05.12	100	0
7043	“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손	IT동아	05.12	464	1
7042	[투자를IT다] 2026년 5월 1주차 IT기업 주요 소식과 시장 전망	IT동아	05.11	25	0
7041	[신차공개] GMC ‘허머 EV SUV’·포르쉐 ‘마칸 GTS 일렉트릭’ 출시	IT동아	05.11	38	0
7040	[정석희의 기후 에너지 인사이트] 10. 햇빛은 공짜, 그물은 누가 만드는가? [1]	IT동아	05.11	562	0
7039	‘우주 비전’ 품은 LIG D&A, 스타트업 '스텔라비전'과 손잡은 이유?	IT동아	05.11	41	0
7038	[주간투자동향] 찬스, 47억 원 규모 투자 유치 外	IT동아	05.11	36	0
7037	“첨단전략산업 육성 목적” 국민참여형 국민성장펀드 조성, 다른 펀드와 다른 점은?	IT동아	05.08	120	0
7036	“맛집 예약부터 쇼핑 결제까지”…네이버 대화형 검색 AI탭 써보니	IT동아	05.08	43	0
7035	[스타트업리뷰] "스리라차보다 낮은 열량" 스퀴진, K-김 불편함까지 튜브로 풀었다 [6]	IT동아	05.08	690	0
7034	[르포] 지커, 강남 대치동에 브랜드 갤러리 오픈…최신 라인업 선보이며 존재감 확대 [9]	IT동아	05.08	907	2
7033	어르신에게 듣는 즐거움을, 제이디솔루션 청력보조 스피커 하룬제 기증 현장 가 보니	IT동아	05.08	48	0
7032	디지털자산 과세 앞두고 팽팽한 공방 ‘준비 안 됐다’ vs ‘예정대로 진행’	IT동아	05.08	47	0
7031	한국항공대 “방산 SW 인재, 총장배 2026 AI 파일럿 탑건 챌린지 도전하라”	IT동아	05.08	43	0
7030	“교통비 환급 더 많이” K-패스 '반값 모두의 카드', 지금 주목해야 하는 이유	IT동아	05.08	69	0
7029	[자동차와 法] 어린이 보호구역 교통사고를 둘러싼 오해와 현실, 책임의 경계	IT동아	05.08	282	0
7028	“플랫폼ㆍ하드웨어ㆍ소프트웨어 등 국내 AI 산업의 모든 것이 한 자리에” 2026 국제인공지능대전(AI EXPO)	IT동아	05.07	56	0
7027	서울창경 “창업기업 등용문, 올해의 K-스타트업 2026 혁신·AI 리그로”	IT동아	05.07	52	0
7026	OTT 구독 결합 전쟁, 나에게 맞는 조합은?	IT동아	05.07	80	0
7025	[스타트업-ing] 퓨잇, 한국수자원공사 손잡고 지역 플랫폼 '로컬바이브' 구축	IT동아	05.07	52	1
7024	나이트로 서울 2026 게임데이 'AI가 공동 창업자, ‘어떻게’ 보다 ‘무엇을’이 더 중요’ [1]	IT동아	05.07	335	0
7023	기업공개 앞둔 마키나락스, 버티컬 AI 분야 글로벌 선도기업 도약 나선다	IT동아	05.06	190	0
7022	[주간보안동향] 쿠팡·네이버 등 7개 오픈마켓, 개인정보 불공정 약관 시정 外	IT동아	05.06	44	0
7021	[위클리AI] 아마존·오픈AI·메타, 검색부터 로봇까지 서비스 고도화 박차	IT동아	05.06	113	0
7020	[신차공개] 현대차 ‘더 뉴 그랜저’ 디자인 공개·볼보 ‘XC90 블랙 에디션’ 한정 판매 [6]	IT동아	05.06	1834	0
7019	[주간스타트업동향] 디노티시아, 소버린 AI 법령 에이전트 '리걸큐' 베타 공개 外	IT동아	05.06	54	0
7018	[스타트업 브랜딩 가이드] 초기 스타트업이 투자자를 설득하는 브랜드 구조	IT동아	05.06	94	0
7017	10명 중 3명은 '시한부' 윈도10 PC 사용 중… 어떡하나?	IT동아	05.05	94	0
7016	[투자를IT다] 2026년 4월 5주차 IT기업 주요 소식과 시장 전망	IT동아	05.04	57	0
7015	AI·클라우드 시대 공공 보안의 새 이정표...망분리 장벽 허무는 N2SF	IT동아	05.04	57	0
7014	짐 켈러의 텐스토렌트, '블랙홀' AI 가속기로 IT 인프라 판도 뒤집을까	IT동아	05.04	141	0
7013	"싱가포르 거점으로 아세안 시장 공략", 인천창조경제혁신센터, AI/바이오 분야 글로벌 스타트업 서밋 개최	IT동아	05.04	57	0
7012	[주간투자동향] 티냅스, 45억 원 규모 시드 투자 유치 外	IT동아	05.04	72	0
7011	두레이 도입한 메가스터디교육, "협업 툴 도입 두 달 차··· 업무 문화·효율 개선 실감"	IT동아	05.04	51	0
7010	서울창조경제혁신센터, 동아닷컴+아이티동아의 '스타트업 글로벌 홍보 증진 프로그램' 합류	IT동아	04.30	58	0
7009	[르포] GM 창원공장서 만든 트랙스 크로스오버, 가포신항 거쳐 세계로	IT동아	04.30	84	0
7008	[뉴스줌인] 생성형 AI에 변곡점 맞은 어도비? 돌파구는 '오케스트레이션' [7]	IT동아	04.30	1268	0
7007	"텀블러 세척 더 쉬워졌다" 스타벅스·LG전자 마이컵, 직접 써보니	IT동아	04.30	146	0
7006	8세대 TPU 내놓으며 96만 대 GPU 주문한 구글··· 배경엔 '인프라 이원화' 전략	IT동아	04.30	1742	3
7005	신호철 슈프리마 전무 “출입통제 넘어 영상보안 융합…‘AI 통합 보안’ 승부수”	IT동아	04.30	96	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[IT동아 갤러리]

갤러리 본문 영역

AI 레드팀, 모델 취약점 찾아 방어책 마련

LLM 속이는 기술, 프롬프트 인젝션

고도화되는 AI 위협…레드팀 역할 커질 것

▶ AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다▶ 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는?▶ 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까

추천 비추천

댓글 영역

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

대왕디시콘 사용중

대왕디시콘

즐겨찾기 추가 안내

즐겨찾기 추가 안내

색상 설정

즐겨찾기 편집

폴더명

즐겨찾기 편집

디시콘

▶ AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다 ▶ 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는?▶ 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까