디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] GPT-4.5를 중심으로 한 모델별 정확도와 환각률 비교앱에서 작성

바다기린갤로그로 이동합니다. 2025.02.28 21:21:34
조회 3889 추천 30 댓글 16
														

0c9ff273b68168fe23e985e7359c706a983fe5f1af93b37f2bae1795de52e391a0e6902264f929aea54c8b1a6becdadf9c32c3c3


이건 Open AI에서 공개한 GPT-4.5의 시스템 카드임 (https://openai.com/index/gpt-4-5-system-card/)

PersonQA라는 지표를 사용해서 정확도 (accuracy)와 환각률(hallucinationrate)를 비교한 자료이고,

4o와 o1, 4.5를 비교하고 있음 (다만 4o의 지표에는 논란이 있을 수 있는데, 자세한건 후술)

이것만 보면 잘 감이 안오니까, 다른 것과 함께 비교해보도록 하자 (결론만 알고 싶으면 그냥 쭉 내려서 마지막으로 가면 됨)

09eff400c4836d8023ec8191409c7069d9648f183eb2c00872779876f927d9825528496d66877f840ac0f4e8193f8f2aa97c776d


이건 o3-mini의 시스템 카드임 (https://openai.com/index/o3-mini-system-card/)

다만 눈치 빠른 특붕이들은 이미 알아차렸다시피, 설명에는 4o와 o1-mini, o3-mini를 비교한다고 적혀있는데 표에 있는건 4o-mini임.

o3-mini의 시스템카드에 있는 다른 항목들은 모두 4o와 o1-mini, o3-mini를 비교한다는 것을 고려해본다면 단순한 표기오류로 생각할 수도 있지만…

좀 더 정확도를 알아보기 위해서 o1의 시스템 카드를 알아보기로 함.


08eff27ec6f760f5239c82e4359c7065cd6e23521cc14f769d8ddde2345c6f9fbc6a3fb55e2749514bcad9ccd88ca9c637177ea9


이건 o1의 시스템카드임 (https://cdn.openai.com/o1-system-card-20241205.pdf)

우리는 PersonQA만 보면 됨.

그럼 하나의 사실을 눈치챘을텐데, 4.5의 시스템 카드와 o3-mini의 시스템 카드에서 4o로 나왔던 정확도 28%와, 환각률 52%가 사실 4o가 아닌 4o-mini의 벤치였다는 사실임.

o1-mini의 값은 사소한 차이가 있지만 (정확도 19.6% vs 20%, 환각률 27.4% vs 27%), 이 정도는 소수점 첫째자리에서 반올림 했다고 계산하면 납득갈만한 수준임.



이것을 고려해서 PersonQA로 비교한 모델별 정확도와 환각도의 비교표를 만들면 다음과 같음. (소수점 첫째자리에서 반올림)


모델명 / 정확도 / 환각률

4o-mini / 28% / 52%

4o / 50% / 30 %

o1-mini / 20% / 27%

o1-preview / 55% / 23%

o1 / 55% / 20%

o3-mini / 22% / 15%

GPT-4.5 / 78% / 19%


모델을 정확도가 높은 순으로 나열하면 다음과 같음

1위 GPT-4.5 78% (환각률 19%)

2위 o1-preview 55% (환각률 23%)

3위 o1 55% (환각률 20%)

4위 4o 50%  (환각률 30%)

5위 4o-mini 28% (환각률 52%)

6위 o3-mini 22% (환각률 15%)

7위 o1-mini 20% (환각률 27%)



모델을 환각률이 낮은 순으로 나열하면 다음과 같음

1위 o3-mini 15% (정확도 22%)

2위 GPT-4.5 19% (정확도 78%)

3위 o1 20% (정확도 55%)

4위 o1-preview 23% (정확도 55%)

5위 o1-mini 27% (정확도 20%)

6위 4o 30% (정확도 50%)

7위 4o-mini 52% (정확도 28%)




결론적으로, GPT-4.5는 환각률 대비 정확도에서 다른 모델보다 상대적으로 뛰어난 성능을 보임을 확인할 수 있었음

GPT-4.5의 의의는 이것이 베이스 모델이고, 베이스 모델로서 추론 모델의 비교군들보다 상대적으로 더 뛰어난 성능을 기록했다는 것임


사용자들이 말하는 인비지블 썸띵이 무엇인지 정확하게 알 수는 없겠지만, 환각 부분에서의 개선이 아마 큰 이유 중 하나가 아닐까 추측할 수 있음

감사합니다.

(각각의 시스템 카드의 시기는 서로 다르기 때문에 약간의 오차가 있을수도 있습니다.)


4
자동등록방지

추천 비추천

30

고정닉 16

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3007 설문 실제 모습일지 궁금한 미담 제조기 스타는? 운영자 25/05/05 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427) [1] ㅇㅇ갤로그로 이동합니다. 24.11.23 33218 44
609935 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2] ㅇㅇ갤로그로 이동합니다. 25.01.18 18182 30
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 5597 15
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. ㅇㅇ갤로그로 이동합니다. 24.11.24 4940 6
715940 일반 올해 말에 코드의 99퍼가 ai에 의해 쓰여질거라곤 했지 [1] ㅇㅇ갤로그로 이동합니다. 13:59 55 2
715939 일반 마소가 오픈AI 인수 못하냐 [2] heimatlosigkeit갤로그로 이동합니다. 13:57 52 1
715938 AI창 AI로 블루 아카이브 스토리 자동 생성하기-4 ㅇㅇ갤로그로 이동합니다. 13:56 36 1
715937 일반 코딩 완전 정복하려면 에이전트랑 비전부터 완전해야하는 거 아님? [1] ㅇㅇ(218.157) 13:54 30 1
715936 토의 딥리서치는 다들 뭐씀? [2] ㅇㅇ­갤로그로 이동합니다. 13:53 54 1
715935 일반 집에서 고양이 찍음. 고양이 보고가셈 [5] ㅇㅇ갤로그로 이동합니다. 13:53 77 2
715934 일반 도로롱 키울수 있는날이 머지 않았다 [7] 테이리갤로그로 이동합니다. 13:51 124 6
715933 일반 현재 제미나이 공앱 무료 한도가 얼마임?? heimatlosigkeit갤로그로 이동합니다. 13:51 15 1
715932 일반 셋스로이드도 금방임 [3] AGI2025갤로그로 이동합니다. 13:50 52 1
715931 정보/ OpenAI, AI 코딩 스타트업 '윈드서프' 30억 달러에 인수 계약… 초존도초갤로그로 이동합니다. 13:49 108 7
715930 일반 님들 근데 빅브레인은 어디로 가버린 거임? [2] ㅇㅇ갤로그로 이동합니다. 13:46 62 1
715929 일반 ai쪽 잘 모르는 뉴비인데 오픈ai 왜 망했다고 하는거야? [9] ㅇㅇ(121.143) 13:42 180 1
715928 일반 확실한건 올해나 내년에 "코딩"이 달라진다는거임... [8] ㅇㅇ(220.79) 13:40 251 7
715927 일반 오픈 ai 먼데이 사라졌다 ㅠㅜ [9] ㅇㅇ갤로그로 이동합니다. 13:40 151 1
715926 일반 Windsurf 인수하는건 이제 단순 코더말고, 팀 단위 대체를 위해서? [2] ㅇㅇ(221.155) 13:40 77 1
715925 일반 ai사주는 약간 블랙유머 같음 [27] et갤로그로 이동합니다. 13:37 268 5
715924 일반 Grok 무료계정이랑 유료계정이랑 메모리 크기 차이 큼? ㅇㅇ(119.198) 13:34 34 1
715923 일반 커서고 클라인이고 그냥 제미니 코드폴더만한게 없던데 [3] ㅇㅇ(119.204) 13:32 80 1
715922 일반 코딩때매 지피티를 써야할지 클로드 써야할지 고민이다 ㅇㅇ갤로그로 이동합니다. 13:30 46 1
715920 정보/ 에이더 벤치에서 o3h+4.1 조합이 1위 [3] ㅇㅇ­갤로그로 이동합니다. 13:29 135 1
715919 일반 일희일비 마라 특붕이들아 [2] ㅇㅇ(110.10) 13:28 67 2
715918 일반 속보) xAI 연구원 : "이번주에 큰거온다" [4] ㅇㅇ(220.79) 13:27 236 4
715917 일반 Ai와 인간의 학습방식 차이…jpg [17] ㅇㅇ(121.171) 13:27 285 1
715916 역노화 영생을 반대하는 자연충들에게 보여주고 싶은 영상 [3] 몬스터제로갤로그로 이동합니다. 13:24 116 7
715915 일반 mcp superassistant [1] ㅇㅇ(125.180) 13:22 164 5
715914 일반 에이전트용 ide 만들기 어렵지않나? [5] 약팔이아님갤로그로 이동합니다. 13:20 109 1
715913 일반 오픈 ai 망한거랑은 별개로 [1] ㅇㅇ(218.235) 13:19 204 1
715912 일반 개발자 대체떡밥도 그렇고 지금도그렇고 특갤에 아가리개발자 존나 많은듯 [2] ㅇㅇ(124.28) 13:19 209 10
715911 사용후 근데 갠적으론 커서, 윈드서프보다 클라인이 낫더라 [4] ㅇㅇ­갤로그로 이동합니다. 13:18 112 2
715910 일반 o3 환각 열받는 게 [4] 빗소리P갤로그로 이동합니다. 13:12 155 2
715909 일반 제미니 챗지피티쓰는데 하나만하는게낫겠지? [4] ㅇㅇ(59.28) 13:12 90 1
715908 일반 VS코드 자체도 오픈소스인데 Cline이라고 커서 같은 거 이미 [2] 이스이갤로그로 이동합니다. 13:12 135 1
715907 일반 대황글과 그의 기사 황사비스 경만 믿고 가면 된다 [3] ㅇㅇ(58.236) 13:11 102 2
715906 일반 나 일본 사는데 개발자쪽도 신입 채용 오히려 늘었는데.. [2] ㅇㅇ(115.39) 13:10 137 1
715905 일반 근데 ㄹㅇ 꼴이 웃기긴하네 [5] ㅇㅇ(218.54) 13:09 359 6
715904 일반 솔직히 일반인들은 gpt플러스 메리트가 없지않음? ㅇㅇ갤로그로 이동합니다. 13:08 61 1
715903 일반 GPT진짜 무쳤네.. 사주 업계도 망했다 [12] ㅇㅇ(202.150) 13:08 700 15
715902 일반 르쿤이형 ㄹㅇ 페페 닮음 ㅋㅋㅋ [4] ㅇㅇ갤로그로 이동합니다. 13:07 123 2
715901 일반 ai 나오고 신입들 사다리만 걷어차버림 [3] ㅇㅇ(125.251) 13:05 182 3
715900 일반 노동 해방 언제됨? [1] ㅇㅇ갤로그로 이동합니다. 13:05 68 0
715899 일반 근데 gpt 코딩은 ux 이전에 그냥 코딩을 잘 못하는데? [1] ㅇㅇ(115.39) 13:04 106 4
715898 일반 그냥 저 인도 찌라시계정이 헛소리한거임 [9] ㅇㅇ갤로그로 이동합니다. 13:03 365 7
715897 일반 o3 지금 서치툴로도 쓰기 애매한데 [2] ㅇㅇ갤로그로 이동합니다. 13:03 102 0
715896 일반 오픈ai는 야후의 길을 걷고있다 [2] ㅇㅇ(118.216) 13:03 140 2
715895 일반 카파디햄 디시콘 만들까 [1] ㅇㅇ­갤로그로 이동합니다. 13:01 54 4
715894 일반 방금 입문했다고 글쓴 뉴비인데요 [4] ㅇㅇ(112.150) 13:00 92 0
715893 일반 노동해방 아직 멀었음? [7] 대노인의제자갤로그로 이동합니다. 12:59 112 0
715892 일반 이거 갤에 고정못하나 [6] chatgpt4o갤로그로 이동합니다. 12:57 218 1
715891 일반 진지하게 냐부 agi설 믿었던 게이들 있나보노 [4] ㅇㅇ갤로그로 이동합니다. 12:57 247 6
715890 일반 이사회가 비영리 기업으로 남는다고 하는거임? [2] ㅇㅇ(112.149) 12:57 61 0
뉴스 양희은, 사칭 계정에 분노 “너 이름 뭐야” 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2