GPT-4.5를 중심으로 한 모델별 정확도와 환각률 비교

특이점이 온다 갤러리
마이너

" Don't Die "

매니저

sama(prince2317)

부매니저

퐁칸8(zxvw157) かみ(thank346…) VPN차단용(near1254) 카러닐(fasten97…) 디비휴(runny783…) DNA(hexase1) Asi(worship5…) et(evgz6v8f…)

개설일

2019-08-01

[일반] GPT-4.5를 중심으로 한 모델별 정확도와 환각률 비교앱에서 작성

바다기린

2025.02.28 21:21:34

조회 3889 추천 30 댓글 16

0c9ff273b68168fe23e985e7359c706a983fe5f1af93b37f2bae1795de52e391a0e6902264f929aea54c8b1a6becdadf9c32c3c3

이건 Open AI에서 공개한 GPT-4.5의 시스템 카드임 (https://openai.com/index/gpt-4-5-system-card/)

PersonQA라는 지표를 사용해서 정확도 (accuracy)와 환각률(hallucinationrate)를 비교한 자료이고,

4o와 o1, 4.5를 비교하고 있음 (다만 4o의 지표에는 논란이 있을 수 있는데, 자세한건 후술)

이것만 보면 잘 감이 안오니까, 다른 것과 함께 비교해보도록 하자 (결론만 알고 싶으면 그냥 쭉 내려서 마지막으로 가면 됨)

09eff400c4836d8023ec8191409c7069d9648f183eb2c00872779876f927d9825528496d66877f840ac0f4e8193f8f2aa97c776d

이건 o3-mini의 시스템 카드임 (https://openai.com/index/o3-mini-system-card/)

다만 눈치 빠른 특붕이들은 이미 알아차렸다시피, 설명에는 4o와 o1-mini, o3-mini를 비교한다고 적혀있는데 표에 있는건 4o-mini임.

o3-mini의 시스템카드에 있는 다른 항목들은 모두 4o와 o1-mini, o3-mini를 비교한다는 것을 고려해본다면 단순한 표기오류로 생각할 수도 있지만…

좀 더 정확도를 알아보기 위해서 o1의 시스템 카드를 알아보기로 함.

08eff27ec6f760f5239c82e4359c7065cd6e23521cc14f769d8ddde2345c6f9fbc6a3fb55e2749514bcad9ccd88ca9c637177ea9

이건 o1의 시스템카드임 (https://cdn.openai.com/o1-system-card-20241205.pdf)

우리는 PersonQA만 보면 됨.

그럼 하나의 사실을 눈치챘을텐데, 4.5의 시스템 카드와 o3-mini의 시스템 카드에서 4o로 나왔던 정확도 28%와, 환각률 52%가 사실 4o가 아닌 4o-mini의 벤치였다는 사실임.

o1-mini의 값은 사소한 차이가 있지만 (정확도 19.6% vs 20%, 환각률 27.4% vs 27%), 이 정도는 소수점 첫째자리에서 반올림 했다고 계산하면 납득갈만한 수준임.

이것을 고려해서 PersonQA로 비교한 모델별 정확도와 환각도의 비교표를 만들면 다음과 같음. (소수점 첫째자리에서 반올림)

모델명 / 정확도 / 환각률

4o-mini / 28% / 52%

4o / 50% / 30 %

o1-mini / 20% / 27%

o1-preview / 55% / 23%

o1 / 55% / 20%

o3-mini / 22% / 15%

GPT-4.5 / 78% / 19%

모델을 정확도가 높은 순으로 나열하면 다음과 같음

1위 GPT-4.5 78% (환각률 19%)

2위 o1-preview 55% (환각률 23%)

3위 o1 55% (환각률 20%)

4위 4o 50% (환각률 30%)

5위 4o-mini 28% (환각률 52%)

6위 o3-mini 22% (환각률 15%)

7위 o1-mini 20% (환각률 27%)

모델을 환각률이 낮은 순으로 나열하면 다음과 같음

1위 o3-mini 15% (정확도 22%)

2위 GPT-4.5 19% (정확도 78%)

3위 o1 20% (정확도 55%)

4위 o1-preview 23% (정확도 55%)

5위 o1-mini 27% (정확도 20%)

6위 4o 30% (정확도 50%)

7위 4o-mini 52% (정확도 28%)

결론적으로, GPT-4.5는 환각률 대비 정확도에서 다른 모델보다 상대적으로 뛰어난 성능을 보임을 확인할 수 있었음

GPT-4.5의 의의는 이것이 베이스 모델이고, 베이스 모델로서 추론 모델의 비교군들보다 상대적으로 더 뛰어난 성능을 기록했다는 것임

사용자들이 말하는 인비지블 썸띵이 무엇인지 정확하게 알 수는 없겠지만, 환각 부분에서의 개선이 아마 큰 이유 중 하나가 아닐까 추측할 수 있음

감사합니다.

(각각의 시스템 카드의 시기는 서로 다르기 때문에 약간의 오차가 있을수도 있습니다.)

고정닉 16

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
3007	설문	실제 모습일지 궁금한 미담 제조기 스타는?	운영자	25/05/05	-	-
571617	공지	뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427) [1]	ㅇㅇ	24.11.23	33218	44
609935	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2]	ㅇㅇ	25.01.18	18182	30
571620	공지	본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다.	ㅇㅇ	24.11.23	5597	15
572292	공지	직업 비하, 조롱 글 30일 차단됩니다.	ㅇㅇ	24.11.24	4940	6
715940	일반	올해 말에 코드의 99퍼가 ai에 의해 쓰여질거라곤 했지 [1]	ㅇㅇ	13:59	55	2
715939	일반	마소가 오픈AI 인수 못하냐 [2]	heimatlosigkeit	13:57	52	1
715938	AI창 AI창작	AI로 블루 아카이브 스토리 자동 생성하기-4	ㅇㅇ	13:56	36	1
715937	일반	코딩 완전 정복하려면 에이전트랑 비전부터 완전해야하는 거 아님? [1]	ㅇㅇ(218.157)	13:54	30	1
715936	토의	딥리서치는 다들 뭐씀? [2]	ㅇㅇ	13:53	54	1
715935	일반	집에서 고양이 찍음. 고양이 보고가셈 [5]	ㅇㅇ	13:53	77	2
715934	일반	도로롱 키울수 있는날이 머지 않았다 [7]	테이리	13:51	124	6
715933	일반	현재 제미나이 공앱 무료 한도가 얼마임??	heimatlosigkeit	13:51	15	1
715932	일반	셋스로이드도 금방임 [3]	AGI2025	13:50	52	1
715931	정보/ 정보/뉴스	OpenAI, AI 코딩 스타트업 '윈드서프' 30억 달러에 인수 계약…	초존도초	13:49	108	7
715930	일반	님들 근데 빅브레인은 어디로 가버린 거임? [2]	ㅇㅇ	13:46	62	1
715929	일반	ai쪽 잘 모르는 뉴비인데 오픈ai 왜 망했다고 하는거야? [9]	ㅇㅇ(121.143)	13:42	180	1
715928	일반	확실한건 올해나 내년에 "코딩"이 달라진다는거임... [8]	ㅇㅇ(220.79)	13:40	251	7
715927	일반	오픈 ai 먼데이 사라졌다 ㅠㅜ [9]	ㅇㅇ	13:40	151	1
715926	일반	Windsurf 인수하는건 이제 단순 코더말고, 팀 단위 대체를 위해서? [2]	ㅇㅇ(221.155)	13:40	77	1
715925	일반	ai사주는 약간 블랙유머 같음 [27]	et	13:37	268	5
715924	일반	Grok 무료계정이랑 유료계정이랑 메모리 크기 차이 큼?	ㅇㅇ(119.198)	13:34	34	1
715923	일반	커서고 클라인이고 그냥 제미니 코드폴더만한게 없던데 [3]	ㅇㅇ(119.204)	13:32	80	1
715922	일반	코딩때매 지피티를 써야할지 클로드 써야할지 고민이다	ㅇㅇ	13:30	46	1
715920	정보/ 정보/뉴스	에이더 벤치에서 o3h+4.1 조합이 1위 [3]	ㅇㅇ	13:29	135	1
715919	일반	일희일비 마라 특붕이들아 [2]	ㅇㅇ(110.10)	13:28	67	2
715918	일반	속보) xAI 연구원 : "이번주에 큰거온다" [4]	ㅇㅇ(220.79)	13:27	236	4
715917	일반	Ai와 인간의 학습방식 차이…jpg [17]	ㅇㅇ(121.171)	13:27	285	1
715916	역노화	영생을 반대하는 자연충들에게 보여주고 싶은 영상 [3]	몬스터제로	13:24	116	7
715915	일반	mcp superassistant [1]	ㅇㅇ(125.180)	13:22	164	5
715914	일반	에이전트용 ide 만들기 어렵지않나? [5]	약팔이아님	13:20	109	1
715913	일반	오픈 ai 망한거랑은 별개로 [1]	ㅇㅇ(218.235)	13:19	204	1
715912	일반	개발자 대체떡밥도 그렇고 지금도그렇고 특갤에 아가리개발자 존나 많은듯 [2]	ㅇㅇ(124.28)	13:19	209	10
715911	사용후 사용후기	근데 갠적으론 커서, 윈드서프보다 클라인이 낫더라 [4]	ㅇㅇ	13:18	112	2
715910	일반	o3 환각 열받는 게 [4]	빗소리P	13:12	155	2
715909	일반	제미니 챗지피티쓰는데 하나만하는게낫겠지? [4]	ㅇㅇ(59.28)	13:12	90	1
715908	일반	VS코드 자체도 오픈소스인데 Cline이라고 커서 같은 거 이미 [2]	이스이	13:12	135	1
715907	일반	대황글과 그의 기사 황사비스 경만 믿고 가면 된다 [3]	ㅇㅇ(58.236)	13:11	102	2
715906	일반	나 일본 사는데 개발자쪽도 신입 채용 오히려 늘었는데.. [2]	ㅇㅇ(115.39)	13:10	137	1
715905	일반	근데 ㄹㅇ 꼴이 웃기긴하네 [5]	ㅇㅇ(218.54)	13:09	359	6
715904	일반	솔직히 일반인들은 gpt플러스 메리트가 없지않음?	ㅇㅇ	13:08	61	1
715903	일반	GPT진짜 무쳤네.. 사주 업계도 망했다 [12]	ㅇㅇ(202.150)	13:08	700	15
715902	일반	르쿤이형 ㄹㅇ 페페 닮음 ㅋㅋㅋ [4]	ㅇㅇ	13:07	123	2
715901	일반	ai 나오고 신입들 사다리만 걷어차버림 [3]	ㅇㅇ(125.251)	13:05	182	3
715900	일반	노동 해방 언제됨? [1]	ㅇㅇ	13:05	68	0
715899	일반	근데 gpt 코딩은 ux 이전에 그냥 코딩을 잘 못하는데? [1]	ㅇㅇ(115.39)	13:04	106	4
715898	일반	그냥 저 인도 찌라시계정이 헛소리한거임 [9]	ㅇㅇ	13:03	365	7
715897	일반	o3 지금 서치툴로도 쓰기 애매한데 [2]	ㅇㅇ	13:03	102	0
715896	일반	오픈ai는 야후의 길을 걷고있다 [2]	ㅇㅇ(118.216)	13:03	140	2
715895	일반	카파디햄 디시콘 만들까 [1]	ㅇㅇ	13:01	54	4
715894	일반	방금 입문했다고 글쓴 뉴비인데요 [4]	ㅇㅇ(112.150)	13:00	92	0
715893	일반	노동해방 아직 멀었음? [7]	대노인의제자	12:59	112	0
715892	일반	이거 갤에 고정못하나 [6]	chatgpt4o	12:57	218	1
715891	일반	진지하게 냐부 agi설 믿었던 게이들 있나보노 [4]	ㅇㅇ	12:57	247	6
715890	일반	이사회가 비영리 기업으로 남는다고 하는거임? [2]	ㅇㅇ(112.149)	12:57	61	0
	뉴스	양희은, 사칭 계정에 분노 “너 이름 뭐야”	디시트렌드	10:00