디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

“답변 40% 작성 시점에 오답 예측”… AI 스스로 오류 검증하는 기술 등장

aimatters갤로그로 이동합니다. 2026.01.07 17:28:58
조회 73 추천 1 댓글 0


AI가 스스로 "이 답변은 틀릴 것 같아요"라고 판단할 수 있을까? 캐나다 앨버타대학교 연구팀이 AI가 외부 도움 없이 자신의 오류를 예측하는 기술을 개발했다. '노시스(Gnosis)'라는 이름의 이 기술은 매우 적은 용량으로도 훨씬 큰 검증 시스템보다 뛰어난 성능을 보여준다. 연구팀은 이를 AI의 '자기 인식 능력'이라고 부른다.



외부 검증자 없이 AI 내부 신호만으로 오류 포착

해당 연구 논문에 따르면, 노시스는 AI가 답변을 만들어내는 과정에서 나타나는 내부 신호를 분석한다. 사람이 말을 할 때 표정이나 목소리 톤으로 확신의 정도를 알 수 있듯이, AI도 답변을 생성할 때 내부적으로 특정한 패턴을 보인다. 노시스는 바로 이 패턴을 읽어낸다.

기존 방법들은 대부분 외부의 도움이 필요했다. 여러 번 답변을 만들어 비교하거나, 별도의 큰 AI 모델을 동원해 답변이 맞는지 검증했다. 하지만 노시스는 AI가 답변을 만드는 바로 그 순간의 내부 작동 방식만 관찰한다. 연구팀은 이를 "AI의 뇌파를 읽는 것"에 비유한다.

노시스가 주목하는 것은 두 가지다. 첫째는 AI 내부의 '은닉 상태'라는 것인데, 이는 AI가 정보를 처리하면서 만들어내는 중간 결과물이다. 둘째는 '어텐션 패턴'으로, AI가 문제를 풀 때 어떤 정보에 집중하는지를 보여주는 지도 같은 것이다. 노시스는 이 두 가지를 압축해서 분석하며, 답변이 길어져도 분석 시간이 늘어나지 않는다는 장점이 있다.





용량은 500만, 성능은 80억급... 압도적 효율성 입증

노시스의 성능은 실험 결과로 입증됐다. 수학 문제 풀이, 상식 퀴즈, 전문 지식 질문 등 세 가지 테스트에서 노시스는 80억 개 용량의 스카이워크(Skywork) 검증 모델과 구글의 제미나이 2.5 프로를 모두 능가했다. 예를 들어 수학 문제에서 노시스는 정확도 지표에서 스카이워크와 제미나이보다 높은 수치를 기록했다.

더 놀라운 것은 효율성이다. 노시스의 용량은 약 500만에 불과하다. 이는 비교 대상인 80억 용량 모델의 1,000분의 1 수준이다. 마치 경차가 대형 트럭보다 빠르고 정확하게 목적지에 도착하는 셈이다.

속도 면에서도 노시스는 탁월하다. 1만 2,000단어 분량의 답변을 검증할 때 노시스는 0.025초가 걸렸고, 이는 80억 용량 모델보다 37배 빠른 속도다. 답변이 2만 4,000단어로 늘어나면 속도 차이는 99배까지 벌어진다. 일반 검증 모델은 답변이 길어질수록 검증 시간도 늘어나지만, 노시스는 답변 길이와 관계없이 항상 같은 시간이 걸린다.

개발 비용도 매우 저렴하다. 가장 큰 200억 용량 모델에 노시스를 적용하는 데 걸린 시간은 고성능 컴퓨터 2대로 약 12시간, 비용은 단돈 25달러였다. 기존의 대형 검증 모델들이 수백만 건의 데이터와 전문가의 평가를 필요로 하는 것과 비교하면 놀라운 차이다.



답변의 40%만 작성해도 결과 예측 가능

노시스의 또 다른 특징은 답변이 완성되기 전에도 결과를 예측할 수 있다는 점이다. 연구팀은 노시스가 완성된 답변으로만 학습했는데도, 답변의 40%만 작성된 시점에서 이미 최종 예측과 비슷한 정확도를 보인다는 사실을 발견했다. 추가 훈련 없이 나타난 능력이다.

이는 실용적으로 매우 유용하다. AI가 답변을 만들다가 "이건 틀린 것 같아"라고 조기에 판단하면, 즉시 작성을 멈추고 다른 방법을 시도할 수 있다. 불필요한 계산을 하지 않아도 되니 비용과 시간이 절약된다. 또는 현재 AI로는 답하기 어렵다고 판단되면 자동으로 더 강력한 AI에게 질문을 넘길 수도 있다.

실험에서 노시스는 수학 문제와 상식 퀴즈 모두에서 40% 지점에 이미 다른 검증 방법들이 전체 답변을 본 후에야 도달하는 수준의 성능을 보였다. 연구팀은 이를 "AI가 자신의 추론 과정 초반에 이미 성공 여부를 감지한다"고 설명했다.



작은 AI가 큰 AI를 검증하는 시대

노시스는 '형제 모델 검증'이라는 독특한 능력도 보여줬다. 17억 용량 모델로 훈련한 노시스를 40억, 80억 용량 모델에 그대로 적용해도 높은 성능을 유지했다. 수학 문제 테스트에서 17억 기반 노시스는 80억 모델을 검증할 때 정확도 0.93을 기록했는데, 이는 80억 모델 전용으로 훈련한 노시스의 0.96에 근접한 수치다.

더 흥미로운 점은 이렇게 전이된 작은 노시스가 여전히 80억 용량의 스카이워크 검증 모델보다 뛰어나다는 것이다. 연구팀은 AI의 오류가 모델 크기와 상관없이 비슷한 패턴으로 나타나며, 따라서 작은 검증 시스템 하나로 여러 크기의 AI를 감독할 수 있다고 설명했다. 다만 이 능력은 비슷한 방식으로 작동하는 AI끼리에서 가장 효과적이며, 작동 방식이 크게 다른 AI 간에는 한계가 있다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 노시스는 어떻게 AI의 오류를 미리 알 수 있나요?

A: 노시스는 AI가 답변을 만들 때 나타나는 내부 신호를 읽습니다. 마치 의사가 심전도나 혈압 같은 생체 신호로 환자의 건강 상태를 판단하듯이, 노시스는 AI의 '내부 작동 신호'를 분석해 답변이 맞을지 틀릴지 예측합니다. 다른 AI의 도움이나 추가 계산 없이 AI 스스로의 추론 과정만으로 오류를 감지합니다.

Q2. 노시스의 가장 큰 장점은 무엇인가요?

A: 매우 작은 용량으로 큰 검증 시스템보다 뛰어난 성능을 낸다는 점입니다. 노시스는 500만 용량으로 80억 용량 모델을 능가하며, 답변이 길어져도 검증 시간이 늘어나지 않습니다. 개발 비용도 25달러에 불과하고, 답변의 40%만 작성된 시점에서 이미 오류를 정확히 예측해 불필요한 작업을 줄일 수 있습니다.

Q3. 노시스를 실제로 어떻게 활용할 수 있나요?

A: AI 서비스에서 잘못된 답변을 미리 차단하는 데 활용할 수 있습니다. 예를 들어 챗봇이 복잡한 질문에 답할 때, 초기 단계에서 "이건 틀릴 것 같다"고 판단되면 즉시 더 강력한 AI로 전환하거나 답변을 중단할 수 있습니다. 이렇게 하면 계산 비용을 아끼면서도 더 정확한 서비스를 제공할 수 있습니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 해외 유명인들과 있어도 기가 전혀 죽지 않을 것 같은 스타는? 운영자 26/02/09 - -
이슈 [디시人터뷰] '따로 또 같이' 피어난 걸그룹 tripleS 운영자 26/02/10 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 15:50 1 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 15:50 1 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 aimatters갤로그로 이동합니다. 15:50 1 0
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 11:34 13 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 11:33 16 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 11:33 14 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [7] aimatters갤로그로 이동합니다. 02.11 2459 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 38 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 45 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 22 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 38 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 26 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 31 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 469 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 454 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 31 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 33 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 54 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 962 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 107 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2767 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 101 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 52 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 206 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 82 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 122 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 64 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 108 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1767 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 148 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 767 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 109 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 61 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 74 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 32 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 66 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 66 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1644 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 82 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 150 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 49 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 35 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 85 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 119 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1313 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3004 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 423 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 78 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 76 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1057 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2