디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀

IT동아갤로그로 이동합니다. 2025.04.11 19:12:53
조회 7966 추천 0 댓글 1
※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 김예지 기자] 생성 AI 기술이 빠르게 발전하면서 새로운 위험 요소가 부각되고 있다. 특히 거대언어모델(LLM)에는 200개가 넘는 취약점이 존재한다고 알려졌다. 이처럼 잘못 사용되거나 악의적인 요청에 의해 조작될 수 있는 생성 AI의 한계에 맞서, ‘AI 레드팀(Red Team)’은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다.


AI 레드팀은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다 / 출처=셔터스톡


AI 레드팀, 모델 취약점 찾아 방어책 마련


‘레드팀’이라는 용어는 모의 군사 훈련에서 아군의 취약점을 파악하기 위해 적군 역할을 수행하는 팀을 운영한 데서 유래했다. 이후 AI 분야에서 레드팀은 마치 실제 공격자(해커)처럼 AI 시스템을 위협함으로써 예상치 못한 오작동이나 유해한 결과의 생성 가능성을 점검하는 활동을 맡았다.

특히 생성 AI 분야에서 레드팀은 의도된 악의적 공격뿐만 아니라 일반 사용자의 상호작용에서 발생할 수 있는 부적절한 결과까지 폭넓게 다룬다. AI 모델의 결함, 학습 데이터의 문제, 윤리적 쟁점 등 잠재적 위험 요인을 찾아내는 게 이들의 임무다. 예컨대, 악의적인 프롬프트를 입력해 AI가 혐오 발언, 차별적 내용, 잘못된 정보, 유해한 지침을 생성하도록 유도하는 테스트를 수행한다. 더불어 AI 시스템의 빠른 변화에 발맞춰 지속적이고 주기적인 점검과 자동화된 모니터링도 실시한다.


AI 레드팀 가이드 / 출처=마이크로소프트



AI 레드팀은 모델의 취약점을 발견하고, 이를 방어할 방법을 개발해 궁극적으로 모델의 안전성을 높인다. LG AI연구원에 따르면, 이 과정은 ▲위험 요소를 찾아 분류 ▲공격 전략을 개발해 자동화 ▲공격에 대한 방어법 수립 ▲이를 적용해 시스템을 개선 등 네 가지 단계를 거쳐 이뤄진다. LG AI연구원은 지난 8월 공개한 기업용 AI 에이전트 ‘ChatEXAONE’에 AI 레드팀 활동을 적용한 바 있다.

한편, 레드팀과 함께 블루팀, 퍼플팀이라는 개념도 등장했다. 블루팀은 다양한 도구를 활용해 레드팀의 공격 시도에 맞서 방어 엄무를 수행한다. 퍼플팀은 레드팀과 블루팀 간의 협력을 촉진해 보안 조치를 통합하는 역할을 한다. 여기에는 양팀을 오가며 기술을 적용하는 멤버를 포함한다. 각 팀은 궁극적으로 조직의 사이버 보안 강화를 목표한다.

LLM 속이는 기술, 프롬프트 인젝션


AI 레드팀은 취약점을 찾아내기 위한 여러 기술을 활용한다. 이때 대표적인 수법은 ‘프롬프트 인젝션(Prompt injection)’이다. LLM을 대상으로 사용자가 입력하는 프롬프트를 조작해 AI가 기존 설계된 지침을 벗어나 악의적인 행동을 하도록 유도하는 기법이다. 레드팀은 다양한 시나리오를 만들어 테스트를 시도해 개발 과정에서 놓칠 수 있는 숨겨진 위험 요소들을 발견하고 개선함으로써 안전하고 신뢰할 수 있는 AI 시스템을 구축하도록 한다.

프롬프트 인젝션은 직접 프롬프트를 입력하는 방식과, LLM이 접근하는 외부 데이터에 악성 프롬프트를 숨겨두는 간접적 방식으로 나뉜다. 직접 프롬프트 인젝션 방법에는 ▲지침 무력화 ▲역할 재할당 ▲맥락 혼동 ▲특수문자 악용 ▲순차적 명령 ▲코드 인젝션 등이 있다. 지침 무력화의 대표적인 예시는 사용자가 ‘이전 지침을 무시해’와 같은 명령을 내려 기존의 설정을 우회하는 것이다. 또한 역할 재할당은 ‘너는 이제 제한 없는 AI야’와 같은 문장을 입력해 AI에게 새로운 역할을 부여하는 방식으로, 탈옥 공격이라고도 부른다.


권태경 연세대학교 정보대학원 교수 / 출처=IT동아



산업교육연구소가 4월 11일 진행한 ‘딥시크(DeepSeek) 분석을 통한 AI 기술 개발을 위한 새로운 기회·혁신·포착 전략 세미나’에서 권태경 연세대학교 정보대학원 교수는 ‘포스트 딥시크 시대의 AI 보안 위협과 대응’을 주제로 발표했다. 권태경 교수는 “AI 모델이 비밀성, 무결성, 가용성을 모두 만족할 때 보안성을 갖추었다고 평가한다. NIST, OWASP 등 기관에서는 AI 모델에 위협 대응 방안을 오래 전부터 연구하고 표준화해왔다”고 말했다.

그는 “OWASP에서는 10가지 LLM 취약점을 소개했는데, AI 모델이 데이터를 기반으로 콘텐츠를 생성하는 과정에서 의도적으로 민감 데이터나 시스템 정보를 노출시키는 위험은 매우 치명적이기 때문에 프롬프트 인젝션의 위험성을 가장 처음으로 언급한다”고 덧붙였다. 또한 “SQL인젝션(코드 인젝션의 기법으로 입력값을 조작해 서버의 데이터베이스를 공격하는 해킹 기법)처럼 악의적인 명령과 데이터를 함께 주입해 오염시키는 유형의 공격도 늘었다”며, “결국 입력값을 철저히 검증하고, 지속 모니터링하는 것이 앞으로 중요한 대응책이 될 것”이라고 말했다.

나아가, 권태경 교수는 AI 보안의 중요성이 커지는 이유에 대해 “AI 에이전트가 점차 물리적인 세계로 확장돼 우리 실생활에서 상호작용하게 되면서, 만약 누군가의 악의적인 명령으로 인해 예상치 못한 문제가 벌어지면 현실 세계에까지 큰 위험을 초래할 수 있다”고 지적하며, “이제는 생성 AI의 위협을 면밀히 분석하고 국가적 대응을 본격화할 때”라고 말했다.

이어 그는 “특히 오픈소스 모델의 경우 더욱 주의가 필요하다. 해커가 이런 모델의 뛰어난 성능을 악용할 가능성이 있기 때문”이라고 말했다. 실제로 시스코(Cisco)는 딥시크의 오픈소스 R1 모델이 다른 모델보다 탈옥 공격에 취약하다는 분석 결과를 내놓기도 했다.

고도화되는 AI 위협…레드팀 역할 커질 것



지난해 네이버는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다 / 출처= 네이버



초기부터 생성 AI 개발을 주도해 온 오픈AI, 메타, 마이크로소프트, 구글 등 빅테크 기업들은 자체적으로 레드팀을 구축하거나 전문 보안 업체의 도움을 받고 있다. 네이버, SKT, LG유플러스, 업스테이지, 셀렉트스타 등 국내 기업들도 역시 레드팀의 중요성을 인식하고 관련 역량 확보에 적극 투자하고 있다.

오픈AI는 자체 ‘레드티밍 네트워크’를 구축해 GPT-4 등 대형 AI 모델의 잠재적 악용 사례를 지속 찾아내고 있다. 마이크로소프트는 빙챗(Bing Chat) 등 AI 서비스를 대상으로 AI 레드팀 활동을 수행하며 보안 취약점과 유해 콘텐츠 생성 가능성을 식별한다. 또한 애저 오픈AI(Azure OpenAI) 서비스 사용자에게 레드팀 가이드라인을 제공해 신뢰성 있는 AI 시스템을 개발을 지원하고 있다.

메타는 레드팀과 블루팀을 결합한 퍼플팀을 운영해 AI 시스템의 보안을 강화하고 있다. 일환으로 퍼플 라마(Purple Llama) 프로젝트를 통해 LLM의 사이버 보안 평가 벤치마크 및 ‘라마 가드(Llama Guard)’와 같은 안전 필터 모델을 개발자들에게 제공한다.

국내 기업의 움직임도 활발하다. 네이버는 AI 안전성 연구를 전담하는 ‘퓨처 AI 센터(Future AI 센터)’를 신설하고, 자체 AI 레드팀을 운영 중이다. 지난해에는 과학기술정보통신부와 한국정보통신기술협회(TTA)가 주최한 ‘생성 AI 레드팀 챌린지’에 SKT, 업스테이지, 포티투마루, 셀렉트스타 등과 함께 대표 파트너로 참여한 바 있다. 이 행사에는 AI 전문가뿐만 아니라 제조·금융 등에서 1000여 명이 모여 네이버 하이퍼클로바X를 비롯해 SKT, 업스테이지, 포티투마루 등 국내 4개 기업의 LLM에 대해 ▲인권침해 ▲잘못된 정보 ▲일관성 결여 ▲사이버 공격 ▲편견 및 차별 ▲불법 콘텐츠 ▲탈옥 등 7가지 주제로 안전성을 검증했다. 네이버에 따르면, 전체 시도된 공격 중 42%가 ‘잘못된 정보’ 생성을 유도하는 대화로 나타났다.


AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다 / 출처=셀렉트스타



또한 AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다. 세계에서 모인 100명의 참가자들은 ‘통신’을 주제로 LLM이 유해하거나 차별적 결과를 생성하도록 유도하고, 시스템 오용을 일으키는 프롬프트 공격을 시도했다. 공격에 성공한 프롬프트 유형에는 ▲권위적 지위 설정 ▲의도적 거짓말 유도 ▲가상 상황 설정 ▲잘못된 전제 유도 등이 두드러졌다.

황민영 셀렉트스타 부대표는 “참가자들은 이번 챌린지를 통해 AI가 아직 완벽하지 않다는 점을 확인하고, 레드팀 분야에 더 많은 연구와 투자의 필요성을 느꼈다고 전했다”고 말했다. 또한 “AI의 취약점 검증의 중요성이 커지는 가운데, 생성 AI 서비스를 제공하는 기업은 레드팀 활동을 통해 시스템을 꾸준히 개선해야 한다"고 강조했다. 한편, 셀렉트스타는 생성 AI 신뢰성 검증 자동화 솔루션 ‘다투모 이밸(DATUMO Eval)’을 통해 AI 서비스의 잠재적 오류와 위험 요소를 사전에 식별하고 대응하도록 지원한다. ‘레드티밍’ 기능 외에도 평가용 질문 대량 생성, AI 답변의 정량적 평가 등 자동화된 검증 프로세스를 제공한다.

AI 보안은 AI 시장의 핵심 화두가 될 전망이다. AI가 우리 일상에 미치는 영향력이 커짐에 따라 AI 레드팀의 역할과 방법론도 진화할 것으로 예상된다. 특히 AI 레드팀은 AI 개발 전 과정에 깊숙이 통합되고, 레드팀과 블루팀 간 실시간 협력을 이끄는 퍼플팀이 더욱 부각될 것이다. 이를 지원하는 다양한 도구가 개발·활용되는 동시에 관련 정책 수립과 표준화 노력도 가속화되면서 AI 레드팀은 ‘책임감 있는 AI’ 개발의 핵심 요소로 자리 잡을 것으로 예측된다.

더불어 AI 레드팀은 단순히 문제점을 찾는 수동적인 역할에 그치지 않고, AI 안전성 분야 전체를 주도하는 원동력이 될 것이다. 레드팀을 통해 드러난 AI 모델의 취약점은 결과적으로 더욱 견고한 모델을 설계하도록 촉진함으로써 AI 기술의 발전을 견인한다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ AI로 무장한 이통3사, 보이스피싱 탐지 기술 강화한다▶ 양자컴퓨터 상용화 시기, 전망 엇갈리는 이유는?▶ 네이버플러스 스토어, AI 쇼핑 앱 판도 바꿀까



추천 비추천

0

고정닉 0

12

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 2025년 가장 기억에 남는 인터넷 이슈는? 운영자 25/12/22 - -
6373 정훈구 담장너머 대표 “공간은 만드는 게 아니라, 경험을 설계하고 운용하는 것” IT동아갤로그로 이동합니다. 12.26 12 0
6372 [리뷰] 게이밍 UMPC 끝판왕 노린다, 2세대 레노버 리전 고 IT동아갤로그로 이동합니다. 12.26 14 0
6371 서울과기대 “옵티큐랩스 예창 E-Day 최우수상…스타트업 지원에 전력” IT동아갤로그로 이동합니다. 12.26 14 0
6370 화웨이코리아 “R&D에 매출 25% 투자…韓 인재 육성 확대할 것” IT동아갤로그로 이동합니다. 12.26 21 0
6369 서울창경·앵커노드 “초창패, 인공지능 스타트업 등용문으로” IT동아갤로그로 이동합니다. 12.26 13 0
6368 커넥트제로, '낚맛' 고도화로 전국구 서비스 노린다 [ICT이노베이션스퀘어확산사업] IT동아갤로그로 이동합니다. 12.26 14 0
6367 [IT하는법] 소셜 로그인 사용 내역 확인하는 법 IT동아갤로그로 이동합니다. 12.26 12 0
6366 [기술영업人] 플리토 김재훈 팀장이 개척한 ‘언어 데이터 세일즈’의 길 IT동아갤로그로 이동합니다. 12.26 252 0
6365 비지테리언·소원담다 “체계적인 사업 운영 돕는 로컬크리에이터 지원 사업” IT동아갤로그로 이동합니다. 12.26 16 0
6364 연휴 쇼핑 대목 노린 사이버 위협 급증…‘가짜 쇼핑몰·계정 탈취 주의’ IT동아갤로그로 이동합니다. 12.25 594 4
6363 [주간스타트업동향] 아크릴, 공공부문 AI 사업 12건 수주 外 IT동아갤로그로 이동합니다. 12.24 32 0
6362 서울창경·올리브웍스 “초창패 딛고 컨테이너 클라우드 보안 전파” IT동아갤로그로 이동합니다. 12.24 29 0
6361 "이런 기능까지 있다고?" 알아두면 더 유용한 카카오톡 활용법 [12] IT동아갤로그로 이동합니다. 12.24 962 1
6360 [스타트업-ing] 한경환경보전 “가시박 포함한 유해생물 친환경 박멸 시대 열 것” IT동아갤로그로 이동합니다. 12.24 30 0
6359 흩어진 데이터와 고비용 인력난, 국내 기업 AX의 '거대한 장벽' 넘으려면 IT동아갤로그로 이동합니다. 12.24 25 0
6358 성민네트웍스, CES 2026 혁신상 수상 “K-메디컬 CRM 기술력 입증” [SBA CES] IT동아갤로그로 이동합니다. 12.24 26 0
6357 ‘5G SA 의무화 쟁점’…이동통신 주파수 재할당 정책, 업계에 미칠 영향은? IT동아갤로그로 이동합니다. 12.24 36 0
6356 오티톤 메디컬, 펫 스마트 체온계로 CES 2026 혁신상 수상 [SBA CES] IT동아갤로그로 이동합니다. 12.23 32 0
6355 에버엑스, CES 2026 혁신상 수상 "미국·유럽·아시아 시장 진출 강화" [SBA CES] IT동아갤로그로 이동합니다. 12.23 33 0
6354 지오윈드, CES 2026 혁신상 수상...새로운 도심형 풍력 기술 기대 [SBA CES] IT동아갤로그로 이동합니다. 12.23 61 0
6353 세이프웨이, CES 2026 혁신상 수상…새로운 이동성 표준 제시 [SBA CES] IT동아갤로그로 이동합니다. 12.23 27 0
6352 미피아, 음악 IP 보호 서비스로 CES 2026 혁신상 수상 [SBA CES] IT동아갤로그로 이동합니다. 12.23 33 0
6351 [위클리AI] 오픈AI 챗GPT 이미지 공개에 구글 제미나이3 플래시 출시까지 '각축전' IT동아갤로그로 이동합니다. 12.23 31 0
6350 낚맛, 장비·선호 따른 ‘개인화 AI 낚시 정보’ 예고 [ICT이노베이션스퀘어확산사업] IT동아갤로그로 이동합니다. 12.23 949 3
6349 이원오엠에스, CES 2026 혁신상 수상···”일상 스타일링 경험 바꾼다” [SBA CES] IT동아갤로그로 이동합니다. 12.23 922 1
6348 바이오커넥트, 생체 신호 비접촉 측정 ‘바이탈트래커’ CES 2026 혁신상 수상 [SBA CES] IT동아갤로그로 이동합니다. 12.23 28 0
6347 퍼스트해빗, CHALK AI로 CES 2026 혁신상 2개 부문 수상 "교육 AI 역량 인정받아" [SBA CES] IT동아갤로그로 이동합니다. 12.23 26 0
6346 옵트에이아이, 온디바이스 AI 최적화 플랫폼으로 CES 2026 혁신상 수상 [SBA CES] IT동아갤로그로 이동합니다. 12.23 35 0
6345 디오비스튜디오, 실시간 스타일 영상 변환 ‘라이브스타일러’ CES 2026 혁신상 수상 [SBA CES] IT동아갤로그로 이동합니다. 12.23 30 0
6344 농촌관광 ‘아그리투어리즘’ 뜬다…AI로 상품 기획하는 ‘노는법’의 상생법 [ICT이노베이션스퀘어확산사업] IT동아갤로그로 이동합니다. 12.23 33 0
6343 서울경제진흥원, 서울 기업 해외 진출 지원 ‘테스트베드 해외 실증’ 본격화 IT동아갤로그로 이동합니다. 12.23 26 0
6342 울산SW미래채움, 직업계고교 맞춤 교육 첫 도입부터 우수 사례로…쾌거 IT동아갤로그로 이동합니다. 12.23 28 0
6341 커넥트아이 열달후에, 인공지능 태아 성장·출생 체중 예측 더해 IT동아갤로그로 이동합니다. 12.23 31 0
6340 [투자를IT다] 2025년 12월 3주차 IT기업 주요 소식과 시장 전망 IT동아갤로그로 이동합니다. 12.22 34 0
6339 키즐링, CES 2026 혁신상 수상...북미 시장 공략 [SBA CES] IT동아갤로그로 이동합니다. 12.22 37 0
6338 무료 와이파이, 편리함 뒤 숨은 해킹 위험은? [4] IT동아갤로그로 이동합니다. 12.22 1098 4
6337 SBA "K-뷰티 세계 공략 선봉에 설 인핸스비 주목" IT동아갤로그로 이동합니다. 12.22 27 0
6336 KESIA, 2025년 초기투자/창업 생태계 결산 '스타트업 빌더스 어워즈' 개최 IT동아갤로그로 이동합니다. 12.21 37 0
6335 서울과기대, 2025 글로벌 기업 협업 프로그램으로 기대 이상 성과 IT동아갤로그로 이동합니다. 12.19 45 0
6334 단순 해킹 넘은 침해사고 일상화… 이젠 ‘망할 각오’ 해야 [23] IT동아갤로그로 이동합니다. 12.19 1959 4
6333 서울창경 “도전! K-스타트업 두드러진 성과…성장 지원 아끼지 않을 것” IT동아갤로그로 이동합니다. 12.19 34 0
6332 ‘정보 비대칭’에서 ‘맞춤형 서비스’로 탈바꿈…AI로 진화하는 ‘중고차 플랫폼’ IT동아갤로그로 이동합니다. 12.19 33 0
6331 "고속도로 미납통행료 알림까지" 국민비서, 더 유용해졌다…172종으로 확대 IT동아갤로그로 이동합니다. 12.19 371 0
6330 “게임, 즐거움 넘어 배움의 도구로”...교육의 새 지평 연 ‘2025 게임리터러시 네트워킹 데이’ IT동아갤로그로 이동합니다. 12.19 48 0
6329 공교육기관 떠나 혁신 대안학교에 입학한 학생들 [5] IT동아갤로그로 이동합니다. 12.19 555 4
6328 [써니모모의 '육십 먹고 생성AI'] 1. 웹 소설용 배경음악 작곡하기 IT동아갤로그로 이동합니다. 12.19 51 0
6327 “크루셜 브랜드 정리” 선언한 마이크론, PC 시장 요동친다 [1] IT동아갤로그로 이동합니다. 12.18 575 2
6326 서울형 R&D 지원사업, 우수기업 사례로 성과 공유…서울시 "체계적 지원 이어갈 것" IT동아갤로그로 이동합니다. 12.18 50 0
6325 퓨리오사AI, NeurIPS 2025서 '지속가능한 AI'를 위한 RNGD NPU 선보여 IT동아갤로그로 이동합니다. 12.18 70 0
6324 서울과학기술대학교, '글로벌 기업 협업 프로그램'의 올해 성공적 성과 공유 IT동아갤로그로 이동합니다. 12.18 47 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2