디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

실험실에선 천재, 현실에선 바보… AI 성능 80% 급락의 진실, 해결책은?

aimatters갤로그로 이동합니다. 2026.01.22 15:31:39
조회 118 추천 0 댓글 0


KAIST와 LG AI 연구원이 충격적인 연구 결과를 발표했다. 해당 논문에 따르면, AI가 무관한 정보가 섞인 환경에서 최대 80%까지 틀린 답변을 내놓는다는 것이다. 실험실에서는 완벽해 보였던 AI가 실제 사용 환경에서는 심각한 문제를 일으킬 수 있다는 경고다. 



실험실에서만 똑똑한 AI, 현실에서는 혼란 


연구팀은 '노이지벤치'라는 새로운 테스트 방법을 만들었다. 기존 AI 테스트가 깨끗하게 정리된 정보만 주었다면, 이번에는 실제 상황처럼 쓸데없는 정보를 섞어서 테스트했다. 예를 들어 질문과 전혀 상관없는 문서를 함께 주거나, 이전 대화 내용을 뒤섞거나, 정답처럼 보이지만 사실은 틀린 정보를 제공했다. 

결과는 충격적이었다. 구글의 제미나이 2.5 프로는 깨끗한 환경에서 77.8%의 정확도를 보였지만, 헷갈리는 정보가 섞이자 48%로 떨어졌다. 더 심각한 경우도 있었다. 딥시크 AI 모델은 정확도가 무려 80% 이상 떨어져서 사실상 사용할 수 없는 수준이 됐다. 이는 AI가 겉으로는 관련 있어 보이는 틀린 정보에 쉽게 속는다는 뜻이다. 

더 놀라운 건 악의적인 공격이 없어도 문제가 생긴다는 점이다. 그냥 무관한 문서나 대화 기록만 섞여도 AI의 판단력이 크게 흐려졌다. 제미나이 2.5 프로는 편향을 측정하는 테스트에서 무작위로 섞인 정보 때문에 정확도가 94%에서 60%로 급락했다. 연구팀은 이를 일반적인 노이즈만으로도 AI의 안전장치가 무너질 수 있다는 증거라고 설명했다. 



AI에게 도구를 주면 오히려 역효과 


연구팀은 AI에게 검색 기능이나 계산기 같은 도구를 제공하는 방식도 테스트했다. 보통 이런 도구들은 AI 성능을 높여준다고 알려져 있다. 실제로 깨끗한 환경에서는 도구가 도움이 됐다. 하지만 쓸데없는 정보가 섞인 환경에서는 오히려 독이 됐다. 도구를 사용한 AI가 기본 AI보다 더 나쁜 성능을 보인 것이다. 

이유는 간단하다. AI는 도구가 제공하는 정보를 믿도록 설계되어 있다. 그래서 잘못된 정보가 섞여 있어도 그대로 받아들인다. 게다가 AI가 여러 단계를 거쳐 문제를 해결하다 보면, 초반에 잘못 받아들인 정보가 다음 단계로 계속 전달되면서 오류가 눈덩이처럼 커진다. 여기에 AI가 엉뚱한 정보 때문에 도구를 잘못 선택해서 쓸데없는 정보를 더 많이 가져오는 악순환까지 생긴다. 

연구팀은 "도구는 깨끗한 환경에서는 좋지만, 노이즈가 있는 환경에서는 AI가 쓸데없는 정보를 너무 많이 가져다 쓰면서 오히려 더 취약해진다"고 지적했다. 앞으로 AI 시스템은 잘못된 정보를 걸러낼 수 있는 장치가 꼭 필요하다는 설명이다. 



새로운 학습법으로 성능 3배 향상 


연구팀은 '레어(RARE)'라는 새로운 학습 방법을 제안했다. 기존 방식은 AI가 정답을 맞췄는지만 평가했다. 하지만 레어는 AI가 답을 찾아가는 과정 자체를 평가한다. AI가 쓸데없는 정보 속에서 진짜 필요한 정보를 잘 찾아냈는지를 보고 점수를 준다는 뜻이다. 

실험 결과는 놀라웠다. 한 모델의 경우 기존 방식으로는 38% 정확도였지만, 레어를 적용하자 55%로 올라갔다. 더 극적인 경우도 있었다. 원래 6%밖에 못 맞추던 모델이 레어를 쓰자 25%까지 올라가면서 무려 300% 이상 개선됐다. 

레어가 효과적인 이유는 명확했다. 학습 과정을 분석해 보니, 레어는 AI가 쓸데없는 정보에 혼란스러워하는 비율을 계속 낮췄다. 동시에 정답률도 올라가서, 결과만 보고 학습한 AI보다 최종 성능이 훨씬 좋았다. 연구팀은 "앞으로 AI를 학습시킬 때는 정답만이 아니라 생각하는 과정 자체를 평가해야 한다"고 강조했다. 



많이 생각한다고 좋은 게 아니다 


연구팀은 놀라운 발견을 했다. 보통은 AI가 더 오래 생각할수록 정확도가 높아진다고 여겨진다. 하지만 쓸데없는 정보가 섞인 환경에서는 정반대였다. AI가 생각을 많이 할수록 오히려 정확도가 떨어졌다. 노이즈를 더 오래 분석할수록 잘못된 해석을 하게 되는 것이다. 

또 다른 발견은 쓸데없는 정보가 많을수록 AI가 점점 더 확신 없는 답변을 한다는 점이다. 연구팀이 헷갈리는 정보를 0개에서 10개까지 늘려가며 실험한 결과, 정보가 많아질수록 AI의 불확실성 지표가 계속 올라갔다. AI가 점점 더 혼란스러워한다는 뜻이다. 

가장 흥미로운 건 AI가 어디에 집중하는지를 분석한 결과다. 연구팀은 AI가 정보를 처리할 때 어떤 부분에 주목하는지 측정했다. 틀린 답을 낸 AI는 쓸데없는 정보에 과도하게 집중했다. 반면 올바른 답을 낸 AI는 그런 정보를 적게 봤다. 이는 AI가 방해 정보를 걸러내지 못하고 그대로 따라간다는 증거다. 

연구팀은 또한 헷갈리는 정보와 질문이 비슷해 보일수록 AI가 더 오래 생각하지만 정확도는 떨어진다는 사실을 발견했다. AI가 관련성을 확인하려고 애쓰지만, 결국 쓸데없는 정보에 속아 넘어가는 것이다. 흥미롭게도 AI의 답변 길이는 방해 정보의 길이와 거의 관계가 없었다. 이는 AI가 단순히 입력이 길어서가 아니라, 헷갈리는 내용 때문에 혼란스러워한다는 뜻이다. 



AI 개발 방향을 바꿔야 할 때 


이번 연구는 AI 업계에 중요한 메시지를 던진다.

첫째, 실험실 테스트만으로는 AI의 진짜 능력을 알 수 없다. 깨끗한 환경에서 높은 점수를 받았다고 해서 실제로도 잘 작동한다는 보장이 없다. 특히 병원이나 금융회사처럼 중요한 곳에서 AI를 쓸 때는 노이즈에 강한지 반드시 확인해야 한다. 


둘째, AI를 단순히 크게 만드는 것만으로는 한계가 있다. 연구팀이 여러 크기의 AI를 테스트한 결과, 크기가 커질수록 노이즈에 조금 더 강해지긴 했지만 그 효과가 크지 않았다. 특히 일정 크기 이상부터는 개선 효과가 거의 없었다. 이는 크기를 키우는 것보다 잘못된 정보를 걸러내는 능력을 키우는 게 더 중요하다는 뜻이다. 

셋째, 프롬프트를 잘 작성하거나 정보를 잘 정리하는 기존 방법들도 큰 도움이 안 됐다. 연구팀이 여러 최신 기법을 시험했지만, 노이즈 환경에서는 효과가 거의 없었다. 이런 기법들도 결국 AI에 의존하다 보니 똑같이 노이즈에 취약했다. 

넷째, 한국 AI 연구진의 성과가 주목받고 있다. KAIST와 LG AI 연구원이 만든 이번 해결책은 간단하면서도 효과적이어서, 전 세계 AI 개발에 널리 쓰일 가능성이 크다. 이는 한국이 AI 기술을 그냥 쓰기만 하는 게 아니라 직접 만들고 개선하는 단계에 올라섰다는 증거다. 



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 


Q1. 노이지벤치가 기존 AI 테스트와 어떻게 다른가요? 

A. 기존 테스트는 깨끗하게 정리된 정보만 줘서 AI가 실제보다 더 똑똑해 보이게 만들었습니다. 노이지벤치는 실제 상황처럼 무관한 문서, 엉뚱한 대화 기록, 헷갈리는 정보를 섞어서 AI의 진짜 실력을 측정합니다. 이를 통해 AI가 실험실이 아닌 현실에서 얼마나 제대로 작동하는지 알 수 있습니다. 

Q2. 레어라는 새 학습법은 어떻게 AI를 개선하나요? 

A. 레어는 AI가 정답을 맞췄는지만 보는 게 아니라, 답을 찾는 과정 자체를 평가합니다. 쓸데없는 정보 속에서 필요한 정보를 제대로 찾아냈을 때 보상을 줘서, AI가 방해 정보를 걸러내고 핵심만 보도록 가르칩니다. 실험에서 일부 AI는 이 방법으로 정확도가 3배 이상 올라갔습니다. 

Q3. 일반 사용자에게 어떤 의미가 있나요? 

A. 지금 쓰는 AI 챗봇이 복잡한 상황에서 생각보다 훨씬 많이 틀릴 수 있다는 뜻입니다. 특히 여러 정보를 종합해야 하거나, 대화가 길어지거나, 비슷해 보이지만 틀린 정보가 섞여 있을 때 AI가 엉뚱한 답을 할 가능성이 큽니다. 중요한 결정을 내릴 때는 AI 답변을 맹신하지 말고 반드시 확인해야 합니다. 



기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 


리포트명: Lost in the Noise: How Reasoning Models Fail with Contextual Distractors 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 해외 유명인들과 있어도 기가 전혀 죽지 않을 것 같은 스타는? 운영자 26/02/09 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 02.12 44 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 02.12 75 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 [4] aimatters갤로그로 이동합니다. 02.12 1103 6
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 02.12 32 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 02.12 36 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 02.12 37 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [6] aimatters갤로그로 이동합니다. 02.11 2526 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 52 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 59 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 30 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 54 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 38 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 41 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 484 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 478 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 40 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 40 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 67 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 984 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 117 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2806 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 104 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 65 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 216 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 85 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 129 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 74 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 118 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1783 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 162 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 778 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 112 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 63 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 78 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 34 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 69 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 71 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1657 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 88 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 160 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 51 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 37 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 88 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 129 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1323 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3022 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 466 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 80 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 78 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1068 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2