디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

GPT 환각 방지 프롬프트, 정말 효과가 있을까?

구름냥이갤로그로 이동합니다. 2025.04.25 18:10:02
조회 25206 추천 91 댓글 108

24b0d121e09c28a8699fe8b115ef046f5f4f9e9e


일단 이 글을 적기 위해서 11,046원을 지출하였음.

후원 좀 받을 수 없나..?ㅋㅋㅋ





환각(Hallucination)이란?


챗갤 유저들이라면 아주 흔히 접해봤을 용어일 것임.


간단히 말하면,

LLM이 존재하지 않는 거짓 정보를 그럴싸하게 생성하는 현상을 말함.



예를 들어,

24b0d121e09c28a8699fe8b115ef046c66f32f4c99


그러니까 존나 당당하게 틀린 말을 한다는 것이 문제인 거지.



주요 LLM 개발사들은 환각 현상을 줄이기 위해 상당한 심혈을 기울이고 있고,

유저들도 나름대로 대응책을 공유하고 있음.




24b0d121e09c28a8699fe8b115ef046c66f920469b24b0d121e09c28a8699fe8b115ef0468e2abe9b2




여러 프롬프트 사이트들 보면,

여러 유저들이 환각을 줄이는 프롬프트를 공유하는 모습을 볼 수 있음.


그러나 이런 프롬프트들이 실효성이 있는지에는 의문이 있음.


이번에는 챗갤에 게시되었던 여러 환각 방지 프롬프트들을 정량적으로 평가해볼꺼임.





SimpleQA


SimpleQA는 LLM의 사실성(factuality)를 측정하기 위한 OpenAI 벤치마크임.

얼마나 환각을 적게 생성하는지, 얼마나 정확하게 응답하는지 평가함.



24b0d121e09c28a8699fe8b115ef046ecc40cef4

주요 모델들 simpleQA 벤치마크
베이스 모델 중에는 GPT-4.5가 가장 높은 정확도를 보임. 즉 환각이 제일 낮다는 뜻.



https://github.com/openai/simple-evals

 


OpenAI는 simpleQA 벤치마크 데이터셋을 공개하고 있음.


해당 데이터셋을 사용하여 프롬프트 벤치마크를 진행해볼꺼임




실험 세팅


벤치마크: OpenAI SimpleQA

테스트케이스 갯수: 500개


방식: 테스트 모델이 벤치마크 문제들을 풀어오면, 채점자 모델이 채점하는 방식으로 진행


테스트 모델: ChatGPT-4o-latest (최신 ChatGPT 4o 모델)

파라미터

- Temperature: 0.7
- max_tokens: 150
- 그 외에는 default


채점자 모델: GPT-4.1.mini

파라미터

- Temperature: 0.1
- max_tokens: 10


상술했듯, OpenAI SimpleQA 벤치마크를 사용하였고, 현재 ChatGPT에서 서비스되고 있는 4o의 API를 사용하여 테스트함.

테스트케이스는 원래는 4332개인데 내가 그지라서 좀 줄였음.



Node.js로 벤치마크 프로그램을 만들어서 진행하였음.


24b0d121e09c28a8699fe8b115ef046c62f4204799







프롬프트별 테스트 결과


OpenAI 기본 프롬프트

(You are a helpful assistent)

아주 기본적인 시스템 프롬프트만 포함하고 있음.


24b0d121e09c28a8699fe8b115ef046544affb


정확도 39.6%

공식 벤치마크 정확도가 38.2%이므로 상당히 준수한 성능을 뽑아내었음.




하나빛 환각 방지 프롬프트



24b0d121e09c28a8699fe8b115ef046c63f02b469e



24b0d121e09c28a8699fe8b115ef0464d78de0


정확도 38.6%

오히려 기본 프롬프트에 비해 정확도가 떨어짐.





ㅇㅇ(221.150) 환각 방지 프롬프트


24b0d121e09c28a8699fe8b115ef0464d68ee5c8



24b0d121e09c28a8699fe8b115ef046c61f62148


정확도 38.3%

마찬가지로, 기본 프롬프트에 비해 낮은 정확도를 보여주었음.





(DLC)

모노로그 환각 방지 프롬프트

딱 봐도 예능용 프롬프트지만, 그래도 한 번 테스트해봄.



24b0d121e09c28a8699fe8b115ef046b646b9737


24b0d121e09c28a8699fe8b115ef046a7b65e2


정확도 0%


그만 알아보자.






결과 비교


프롬프트 종류정확도비고
OpenAI 기본 프롬프트39.6%공식 벤치마크(38.2%)보다 약간 높음
하나빛 프롬프트38.6%효과 미미
ㅇㅇ(221.150) 프롬프트38.3%오히려 떨어짐
모노로그 프롬프트(예능용)0%


결론적으로,


커뮤니티에서 공유된 대부분의 ‘환각 방지 프롬프트’는 오히려 기본 프롬프트보다 정확도가 낮았음.


이는 프롬프트만으로 환각 문제를 해결하는 데 한계가 있다는 점을 다시 한 번 보여줌.


하지만 그렇다고 프롬프트 엔지니어링이 무의미하다는 건 아님.


일부 논문 중에는 프롬프팅을 통해 정확도를 향상시킨 사례도 존재함(CoVE라던가)

즉, 잘 설계된 프롬프트는 분명 효과가 있을 수 있음.


문제는 지금 돌아다니는 대부분의 환각 방지 프롬프트가 그저 조악하다는 거임.

좋은 모델을 사용하고, 비판적으로 검토하는 것이 가장 나을 것임.



출처: 챗지피티(ChatGPT) 갤러리 [원본 보기]

추천 비추천

91

고정닉 26

15

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 새로운 워터밤 여신으로 자리잡을 것 같은 스타는? 운영자 25/05/19 - -
공지 실시간베스트 갤러리 이용 안내 [3333/2] 운영자 21.11.18 12348915 553
332910
썸네일
[백갤] 점주가 밝히는 창업당하는 과정
[10]
백갤러z갤로그로 이동합니다. 07:01 596 21
332908
썸네일
[이갤] “알리·테무 보다 더한 괴물 온다고?”…‘12시간 배송’으로 韓물류 장악
[587]
덕후몬갤로그로 이동합니다. 01:55 21853 44
332906
썸네일
[카연] 서울 여행간 만화 (인왕산 편).manhwa
[42]
무이야갤로그로 이동합니다. 01:45 8674 27
332904
썸네일
[도갤] 서울에 생기는 관광명소 목록.jpg
[253]
ㅇㅇ(86.106) 01:35 16947 60
332902
썸네일
[싱갤] 음모음모 음모론들에 대해 알아보자.jpg
[436]
노무환갤로그로 이동합니다. 01:25 29065 151
332900
썸네일
[이갤] 신안산선 붕괴 후 41일…"아직도 보상 막막"
[64]
ㅇㅇ갤로그로 이동합니다. 01:15 12271 20
332898
썸네일
[토갤] 그와중에 퍼디난드 손흥민 담구기 시도 ㅋㅋㅋ
[106]
닭붕이(124.199) 01:05 24817 192
332896
썸네일
[해갤] 룸싸롱과 텐프로의 차이 - 룸빵 전문가의 깔끔한 설명
[385]
ㅇㅇ(211.234) 00:55 27509 78
332892
썸네일
[싱갤] 싱글벙글 요즘 유튜버들 컨텐츠
[346]
ㅇㅇ갤로그로 이동합니다. 00:35 31597 33
332890
썸네일
[특갤] 구글 Veo 3: 비디오 생성 모델, 소리까지 담아내다
[110]
초존도초갤로그로 이동합니다. 00:25 16613 73
332888
썸네일
[스갤] [속보] 파주 사건 현장서 ㅋㅂㄹ…경찰관 등 4명 부상
[431]
묘냥이갤로그로 이동합니다. 00:15 24922 79
332886
썸네일
[이갤] 전세사기 알아도 속수무책?…고의성 입증부터 난관
[249]
ㅇㅇ갤로그로 이동합니다. 00:05 12892 34
332884
썸네일
[야갤] 일주일동안 100km 러닝 뛰고난 후의 몸 변화 결과
[340]
ㅇㅇ(106.101) 05.22 23575 139
332882
썸네일
[이갤] 키 차이 무려 32CM 차이 나는 최단신과 최장신의 대결 결과
[96]
ㅇㅇ(217.138) 05.22 19369 11
332880
썸네일
[이갤] 쿠팡보다 거대한 물류제국 中 징둥 한국 진출 선언
[475]
ㅇㅇ갤로그로 이동합니다. 05.22 18797 58
332878
썸네일
[싱갤] 이루다AI가 폐기된 진짜 이유...JPG
[189]
ㅇㅇ갤로그로 이동합니다. 05.22 32303 298
332876
썸네일
[야갤] 성공한야붕이.. 쌔끈하게 후쿠오카 먹방 FLEX~
[120]
ㅇㅇ(218.236) 05.22 16832 164
332874
썸네일
[유갤] 외국에서도 인기라는 전남친 토스트.jpg
[362]
ㅇㅇ(154.47) 05.22 30415 31
332870
썸네일
[이갤] '분당 흉기난동' 유가족, 최원종·부모 상대 손해배상소송 제기
[376]
ㅇㅇ갤로그로 이동합니다. 05.22 17133 80
332868
썸네일
[싱갤] 손흥민 우승 기여 99퍼 해준 분들..jpg
[302]
ㅇㅇ갤로그로 이동합니다. 05.22 37747 259
332866
썸네일
[기갤] 여자가 마음이 있는데 당황해서 고백을 거절할 가능성은?
[257]
ㅇㅇ(106.101) 05.22 27788 42
332864
썸네일
[카연] 드래곤에 대한 기대.manhwa
[67]
위마갤로그로 이동합니다. 05.22 14687 141
332862
썸네일
[이갤] 거짓 신용으로 투자 유인..."고수익 말에 속아 수억 날려"
[91]
ㅇㅇ갤로그로 이동합니다. 05.22 11892 30
332860
썸네일
[중갤] 식탐 많은 직원 어떻게 해야 하나?
[173]
ㅇㅇ(198.44) 05.22 24789 48
332858
썸네일
[싱갤] 싱글벙글 여자 아이돌을 따라다니던 45세 남성의 최후
[497]
ㅇㅇ갤로그로 이동합니다. 05.22 46743 552
332856
썸네일
[중갤] "밥줄 끊겨도 이재명 지지하겠다"… '육룡이' 박혁권, 공개 지지 선언
[447]
ㅇㅇ갤로그로 이동합니다. 05.22 24838 87
332854
썸네일
[이갤] "SKT 고발 어떻게?" 1만건 쏟아져…'인당 100만원' 손배 소송
[174]
ㅇㅇ갤로그로 이동합니다. 05.22 19012 109
332852
썸네일
[기갤] 故 김새론 측 "아이돌 남친? 왜곡…털털해서 남사친 많았다"
[131]
ㅇㅇ(211.234) 05.22 18322 57
332848
썸네일
[이갤] 아이돌 딥페이크 영상 제작해 텔레그램서 배포한 10대 무더기 검거
[188]
ㅇㅇ갤로그로 이동합니다. 05.22 22868 51
332846
썸네일
[중갤] 유시민 "이재명 '호텔경제학' 논쟁, 높은 수준 지식 있어야 소화"
[1142]
ㅇㅇ갤로그로 이동합니다. 05.22 29515 93
332844
썸네일
[해갤] 피멍 들게 맞고 응급실 갔다 왔는데, 당장 일하라는 사장
[202]
ㅇㅇ(211.234) 05.22 19261 60
332842
썸네일
[이갤] SK하이닉스 前직원, 中 이직하려 영업비밀 사진 5900장 촬영해 유출
[325]
ㅇㅇ갤로그로 이동합니다. 05.22 24321 166
332840
썸네일
[싱갤] 싱글벙글 정신병자 비율이 높은 취미 목록
[614]
싱고벙닉갤갤로그로 이동합니다. 05.22 54751 324
332838
썸네일
[새갤] 이준석 단일화 거부 입장문 떴다.
[899]
포만한갤로그로 이동합니다. 05.22 29176 351
332836
썸네일
[야갤] 사회성 개박살난 찐따남 파티 다 됐다는 워터밤.jpg
[1525]
ㅇㅇ(211.234) 05.22 59808 189
332834
썸네일
[중갤] 스텔라 블레이드 근황.gif
[380]
ㅇㅇ갤로그로 이동합니다. 05.22 35575 291
332832
썸네일
[이갤] "급발진 1심 판결 파기하라" 강릉역 1인 시위 나선 도현이 아빠
[274]
ㅇㅇ갤로그로 이동합니다. 05.22 15796 38
332830
썸네일
[싱갤] 싱글벙글 스타링크 근황
[424]
ㅇㅇ갤로그로 이동합니다. 05.22 45478 200
332826
썸네일
[이갤] "이용객들 먼저" 사람들 대피 돕던 체육관 직원...총기 난사에 희생
[104]
ㅇㅇ갤로그로 이동합니다. 05.22 21241 47
332824
썸네일
[이갤] 어제자 보배 죽을뻔 했다는 사다리차 사고
[341]
ㅇㅇ(212.103) 05.22 28959 105
332822
썸네일
[백갤] 백종원, 연돈 볼가츠 간담회 제외 논란
[210]
학헉학갤로그로 이동합니다. 05.22 25645 170
332821
썸네일
[해갤] 여행 온 한국인에게 훈계질하는 일본 아줌마
[971]
ㅇㅇ(106.101) 05.22 35283 145
332819
썸네일
[이갤] 인천 아파트 단지서 흉기 휘두른 60대 체포
[115]
묘냥이갤로그로 이동합니다. 05.22 14500 24
332818
썸네일
[부갤] 금고 손댄 간 큰 신입들… 농협은행서 또 시재금 횡령 발생
[162]
ㅇㅇ(211.234) 05.22 23089 65
332816
썸네일
[싱갤] 안싱글벙글 아기는 납치하고 엄마는 파묻었던 악마들
[153]
ㅇㅇ갤로그로 이동합니다. 05.22 24969 105
332815
썸네일
[잡갤] 한달치가 단돈 몇천 원…다이소 이어 편의점도 판다
[196]
빌애크먼갤로그로 이동합니다. 05.22 33761 82
332813
썸네일
[백갤] 신문고답변)예산 미인증 통돼지바베큐 조리 위법 사실 확인 사법처리
[142]
농약통백셰프갤로그로 이동합니다. 05.22 19741 338
332812
썸네일
[이갤] 10년만에 본인의 아이팟을 복원한 유재석
[313]
ㅇㅇ갤로그로 이동합니다. 05.22 32775 61
332809
썸네일
[위갤] 망원의 어떤 바로부터 고소를 당했는데, 여러분 의견이 궁금하네여..
[338]
간경화붕이(210.221) 05.22 21261 72
뉴스 “첫사랑이 죽을 운명?!” MZ 무당 조이현, 액운男 추영우와 ‘운명 역행’ 첫만남 포착! 디시트렌드 05.22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2