GPT 환각 방지 프롬프트, 정말 효과가 있을까?

실시간 베스트 갤러리

GPT 환각 방지 프롬프트, 정말 효과가 있을까?

구름냥이

2025.04.25 18:10:02

조회 23755 추천 89 댓글 105

24b0d121e09c28a8699fe8b115ef046f5f4f9e9e

일단 이 글을 적기 위해서 11,046원을 지출하였음.

후원 좀 받을 수 없나..?ㅋㅋㅋ

환각(Hallucination)이란?

챗갤 유저들이라면 아주 흔히 접해봤을 용어일 것임.

간단히 말하면,

LLM이 존재하지 않는 거짓 정보를 그럴싸하게 생성하는 현상을 말함.

예를 들어,

24b0d121e09c28a8699fe8b115ef046c66f32f4c99

그러니까 존나 당당하게 틀린 말을 한다는 것이 문제인 거지.

주요 LLM 개발사들은 환각 현상을 줄이기 위해 상당한 심혈을 기울이고 있고,

유저들도 나름대로 대응책을 공유하고 있음.

24b0d121e09c28a8699fe8b115ef046c66f920469b

여러 프롬프트 사이트들 보면,

여러 유저들이 환각을 줄이는 프롬프트를 공유하는 모습을 볼 수 있음.

그러나 이런 프롬프트들이 실효성이 있는지에는 의문이 있음.

이번에는 챗갤에 게시되었던 여러 환각 방지 프롬프트들을 정량적으로 평가해볼꺼임.

SimpleQA

SimpleQA는 LLM의 사실성(factuality)를 측정하기 위한 OpenAI 벤치마크임.

얼마나 환각을 적게 생성하는지, 얼마나 정확하게 응답하는지 평가함.

24b0d121e09c28a8699fe8b115ef046ecc40cef4

주요 모델들 simpleQA 벤치마크
베이스 모델 중에는 GPT-4.5가 가장 높은 정확도를 보임. 즉 환각이 제일 낮다는 뜻.

https://github.com/openai/simple-evals

GitHub - openai/simple-evals

Contribute to openai/simple-evals development by creating an account on GitHub.

github.com

OpenAI는 simpleQA 벤치마크 데이터셋을 공개하고 있음.

해당 데이터셋을 사용하여 프롬프트 벤치마크를 진행해볼꺼임

실험 세팅

벤치마크: OpenAI SimpleQA

테스트케이스 갯수: 500개

방식: 테스트 모델이 벤치마크 문제들을 풀어오면, 채점자 모델이 채점하는 방식으로 진행

테스트 모델: ChatGPT-4o-latest (최신 ChatGPT 4o 모델)

파라미터

- Temperature: 0.7
- max_tokens: 150
- 그 외에는 default

채점자 모델: GPT-4.1.mini

파라미터

- Temperature: 0.1
- max_tokens: 10

상술했듯, OpenAI SimpleQA 벤치마크를 사용하였고, 현재 ChatGPT에서 서비스되고 있는 4o의 API를 사용하여 테스트함.

테스트케이스는 원래는 4332개인데 내가 그지라서 좀 줄였음.

Node.js로 벤치마크 프로그램을 만들어서 진행하였음.

24b0d121e09c28a8699fe8b115ef046c62f4204799

프롬프트별 테스트 결과

OpenAI 기본 프롬프트

(You are a helpful assistent)

아주 기본적인 시스템 프롬프트만 포함하고 있음.

24b0d121e09c28a8699fe8b115ef046544affb

정확도 39.6%

공식 벤치마크 정확도가 38.2%이므로 상당히 준수한 성능을 뽑아내었음.

하나빛 환각 방지 프롬프트

24b0d121e09c28a8699fe8b115ef046c63f02b469e

24b0d121e09c28a8699fe8b115ef0464d78de0

정확도 38.6%

오히려 기본 프롬프트에 비해 정확도가 떨어짐.

ㅇㅇ(221.150) 환각 방지 프롬프트

24b0d121e09c28a8699fe8b115ef0464d68ee5c8

24b0d121e09c28a8699fe8b115ef046c61f62148

정확도 38.3%

마찬가지로, 기본 프롬프트에 비해 낮은 정확도를 보여주었음.

(DLC)

모노로그 환각 방지 프롬프트

딱 봐도 예능용 프롬프트지만, 그래도 한 번 테스트해봄.

24b0d121e09c28a8699fe8b115ef046b646b9737

24b0d121e09c28a8699fe8b115ef046a7b65e2

정확도 0%

그만 알아보자.

결과 비교

프롬프트 종류	정확도	비고
OpenAI 기본 프롬프트	39.6%	공식 벤치마크(38.2%)보다 약간 높음
하나빛 프롬프트	38.6%	효과 미미
ㅇㅇ(221.150) 프롬프트	38.3%	오히려 떨어짐
모노로그 프롬프트(예능용)	0%

결론적으로,

커뮤니티에서 공유된 대부분의 ‘환각 방지 프롬프트’는 오히려 기본 프롬프트보다 정확도가 낮았음.

이는 프롬프트만으로 환각 문제를 해결하는 데 한계가 있다는 점을 다시 한 번 보여줌.

하지만 그렇다고 프롬프트 엔지니어링이 무의미하다는 건 아님.

일부 논문 중에는 프롬프팅을 통해 정확도를 향상시킨 사례도 존재함(CoVE라던가)

즉, 잘 설계된 프롬프트는 분명 효과가 있을 수 있음.

문제는 지금 돌아다니는 대부분의 환각 방지 프롬프트가 그저 조악하다는 거임.

좋은 모델을 사용하고, 비판적으로 검토하는 것이 가장 나을 것임.

출처: 챗지피티(ChatGPT) 갤러리 [원본 보기]

고정닉 25

원본 첨부파일 13본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	소속 연예인 논란에 잘 대응하지 못하는 것 같은 소속사는?	운영자	25/04/21	-	-
공지	실시간베스트 갤러리 이용 안내 [3122/2]	운영자	21.11.18	11794292	538
325789	[자갤] 고속도로 사고났다 소화해라 과실비율 어떠려나 [34]	ㅇㅇ	13:40	325	0
325788	[카연] 오래된 동네 목욕탕 고발하는.manhwa [31]	폭르	13:30	3654	36
325786	[싱갤] 깜짝깜짝 북한에서 쓰던....김일성 욕....JPG [64]	ㅇㅇ	13:20	16845	100
325784	[이갤] 과학자들은 5억년 버튼을 누를까 [173]	ㅇㅇ(23.27)	13:10	4937	26
325783	[해갤] 주심한테 얼음 던지는 뤼디거...gif [126]	ㅇㅇ	13:00	12620	148
325779	[싱갤] 싱글벙글 로봇물 크기 순위 3d 버전 [128]	ㅇㅇ	12:40	17512	65
325778	[군갤] 이란 항구폭발 부상자 500명돌파! [126]	김치골뱅이	12:30	10719	49
325776	[야갤] "지하 8층 화재 사상자 발생"…긴박하게 움직였던 훈련 상황 [64]	마스널	12:20	6013	17
325774	[미갤] 우크라 영토 포기 "종전안 확정" [591]	윤통♡트통	12:10	27259	367
325773	[이갤] 여자들 직장생활 남자한테 좀 배우세요 [428]	ㅇㅇ(118.99)	12:00	17768	173
325771	[한화] 7.2이닝 1실점 퀼스+ 문동주의 8K 모음.gif [57]	브로콜리_	11:50	12566	402
325769	[새갤] 파면되자 달라진 검찰 분위기…윤 부부 둘러싼 의혹 전방위 수사 [166]	ㅇㅇ	11:40	11125	68
325768	[싱갤] 살인자가 당당히 활보하는 마을 [613]	ㅇㅇ	11:30	29981	343
325766	[F갤] 인디카로 갈뻔한 페라리 [31]	Doomsday1	11:20	8089	55
325763	[중갤] 한동훈 페북 snl 사진 대량 투척 ㅋㅋ ㅈㄴ 웃기네 ㅋㅋㅋ [377]	ㅇㅇ	11:00	20225	336
325761	[군갤] 남조선놈들은 합동화력함도 못만들고 기래 [147]	ㅂㄴㅅㄱㄱ	10:50	13518	62
325759	[유갤] 남친인데 아들이냐고 물어본 유재석ㅋㅋㅋ [368]	ㅇㅇ(175.119)	10:40	24176	189
325758	[싱갤] 싱글벙글 충주시 도시락 퀄리티 논란 [387]	ㅇㅇ	10:30	33176	195
325756	[야갤] '오픈런' 딸기케이크에 '흰 가루'.. [393]	마스널	10:20	17649	102
325754	[일갤] 벚꽃 보러간 3박4일 아오모리 여행기 2일차 (1) [15]	절채색	10:10	4286	9
325753	[미갤] ??: SKT 피해봤다고 본사앞 시위같은거 하지마라 [358]	ㅇㅇ	10:00	28719	405
325751	[해갤] 바르셀로나 24-25 코파 델 레이 우승 엘클라시코 골 모음...gif [117]	메호대전종결2	09:50	10594	244
325749	[싱갤] 싱글벙글 냉동했다가 살아나는 개구리.jpg [181]	ㅇㅇ	09:40	18357	135
325748	[이갤] 정신나간 수원 묻지마 폭행남 [589]	ㅇㅇ(93.152)	09:30	19708	134
325744	[키갤] 오늘의 이정후.webp [74]	푸이그	09:10	9996	73
325743	[싱갤] 싱글벙글 중국이 동북지역에 과민반응하는 이유.jpg [366]	ㅇㅇ	09:00	18016	197
325741	[일갤] 당신도 할 수 있다. 자작페달 만들기 [69]	Rut_Spear	08:50	7249	46
325739	[러갤] 아마추어, 마스터즈 기준 최고의 마라톤대회!! [27]	쿄코	08:40	7362	21
325737	[몬갤] [와일즈 후기 만화] 몬스터헌터 와일즈, 썬브레이크의 추억.manhwa [100]	앤님이	08:30	12161	139
325735	[필갤] 내가 내 글 실베 보내지말라했을텐데 [104]	야리도리	08:20	12828	53
325733	[싱갤] 세계 각국이 매독을 부르던 방법....jpg [153]	수류탄이야	08:10	35363	166
325731	[이갤] 훌쩍훌쩍... 미국 명문대 출신의 회사 점심시간 [139]	ㅇㅇ	08:00	19506	59
325729	[패갤] 패로인 성지순례 토요하시 당일치기 투어 여행하기 4편 [16]	업사다	07:50	6275	20
325727	[싱갤] 복싱 재능 없는 애 10년 한 결과 [538]	NO	07:40	33332	75
325725	[미갤] 입시에 재외국인 특별전형 자체를 없애야함 [170]	ㅇㅇ(116.38)	07:30	13890	291
325723	[디갤] 뉴비 오키나와 요론지마 여행 사진 보고 가.webp [22]	ㅇㅇ	07:20	5948	13
325721	[싱갤] 싱글벙글 전등으로 비밀번호 만들기..... [154]	김팝송	07:10	31636	169
325717	[군갤] 꼴릿꼴릿 의외로 암컷인 새끼 [129]	알바매일	01:50	52204	139
325715	[유갤] [솔카씹] 퇴근 불태산 빼패킹 [33]	누우치	01:40	13461	23
325714	[잡갤] 40대 부터가 인생 실전인 이유 [367]	묘냥이	01:30	56612	80
325712	[싱갤] 싱글벙글 리플리증후군 환자 [374]	ㅇㅇ	01:20	40863	415
325710	[누갤] 배우 박정민이 주연급으로 올라가면서 하고 있다는 고민.jpg [265]	ㅇㅇ(175.119)	01:10	33144	54
325709	[카연] 2화)웹툰 작가 지망생이 계속 연재 떨어지는 manhwa [125]	거북2(218.146)	01:00	19650	55
325707	[싱갤] 싱글벙글 처음이지 제작진이 개입할 수 밖에 없었던 소맥 [165]	수인갤러리	00:50	32076	29
325706	[스갤] 현실)) 한국 고등학교 vs 중국 고등학교 [565]	ㅇㅇ(146.70)	00:41	37316	313
325704	[주갤] 전문직 남자들도 여자랑 일하기 싫어함 [362]	갓럭키	00:30	46130	336
325702	[기갤] 원룸에서 평창동 단독주택으로 이사 간 배우 남윤수 집 [259]	ㅇㅇ(223.39)	00:20	27305	20
325700	[싱갤] 싱글벙글 스타벅스 명품이미지 멸망한 시발점 ㄹㅇ..... [248]	최철귀	00:10	38721	190
325697	[싱갤] 중국 nc 라면 [279]	프리맨	04.26	33001	164
뉴스	‘올라운더’ 도경수, ‘언슬전’ 멜로 감성 높인다…OST ‘영원해’ 참여	디시트렌드	04.26