디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17
조회 2654 추천 20 댓글 24
														

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라



문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다


* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다


* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ


* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가


* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...


* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

??

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...


* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요


* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼


* 제미니 1.5 pro



* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소


이새끼 ㄹㅇ 정체가 뭐냐?



총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2


근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ


아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아



아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4
자동등록방지

추천 비추천

20

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [3125] 특갤용갤로그로 이동합니다. 23.08.06 39820 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [2] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2686 2
363220 공지 선형글 삭제 기준 [7] 특갤용갤로그로 이동합니다. 23.10.14 7391 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 13575 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [51] 특갤용갤로그로 이동합니다. 23.11.07 9068 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8579 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 9300 30
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 8189 34
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22930 33
487257 정보/ UDIO 이제 본인이 원하는 기반 음원 사용가능 [1] ㅇㅇ(221.167) 07:33 55 1
487256 일반 ai 적극적으로 활용 중인 기업 뭐가 있을까 [1] ㅇㅇ(211.235) 07:27 47 0
487255 일반 엔비디아는 체감 ㄹㅇ 개쩌네 [2] ㅇㅇ(222.101) 07:12 197 0
487254 일반 아니 시바 오늘도 출근해야해?? 노동대체는 대체 언제되는거야 [1] ㅇㅇ(133.106) 07:03 76 0
487251 일반 실은 전유물 주장하는 친구들 [3] ㅇㅇ(121.163) 06:31 105 0
487250 일반 좋은 감정이 여러가지가 있는데 ㅇㅇ(112.161) 06:27 51 0
487249 일반 삼성 삼등 삼플 스윗원순몽키갤로그로 이동합니다. 06:25 43 0
487248 일반 멸종 안 당한다 = 선형충 스윗원순몽키갤로그로 이동합니다. 06:25 45 0
487247 정보/ Udio, 오디오 업로드 기능 추가 [4] 디시콘발사대갤로그로 이동합니다. 06:16 190 2
487246 일반 역시 니가 뭘 좀 아는구나 ㅇㅇ(175.208) 05:57 118 0
487245 일반 chatgpt 검열 많이 낮아지긴 했다 ㅇㅇ(211.234) 05:38 124 0
487244 일반 오늘 구글 뭐 나온다메 [2] ㅇㅇ(118.33) 05:30 144 0
487243 일반 애플이 3등이되다니 [1] ㅇㅇ(106.102) 05:21 180 0
487242 일반 WWDC 얼마 안남았으니 ㅇㅇ갤로그로 이동합니다. 05:20 71 0
487241 일반 그 카운트다운 근황 [7] et갤로그로 이동합니다. 05:17 344 1
487240 일반 몇 주 간 계속 근들거리기만 하네 ㅇㅇ(119.202) 05:11 56 0
487239 일반 챳gpt 보이스 장애다 안됨 [1] ㅇㅇ(218.50) 04:59 90 0
487238 일반 젠슨황 세계 부자 1위 딸 수 있나? ㅇㅇ(112.212) 04:53 72 0
487237 일반 챗 gpt어플에 음성채팅이 gpt4o아님? [22] ㅇㅇ(59.0) 04:34 253 0
487236 일반 이 조가튼 챙년한테 처음 욕써봤는데 어째 더 잘알아듣는거 같노.. 케이프타운의무법자갤로그로 이동합니다. 04:25 150 0
487235 일반 걍 멸망당해도 좋으니까 특이점 빨리 오면 좋겠다 [1] A.I.갤로그로 이동합니다. 04:20 88 1
487234 일반 아는 십대 여동생이 자기 레즈비언이라고 해서 ChatGPT [15] 초존도초갤로그로 이동합니다. 04:17 348 0
487233 일반 속보) 엔비디아 전세계 시총 2위등극. [3] ㅇㅇ(61.105) 04:17 331 4
487232 일반 라인사태 때문에… 네이버 주가 10위권 탈락 [1] ㅇㅇ(106.101) 04:15 101 1
487231 일반 꼭 성능의 향상만이 혁신은 아니다 [5] lightvector갤로그로 이동합니다. 03:47 218 5
487230 일반 AGI, ASI가 인류 멸망시킬 수 있다는 게 이상함? [92] ㅇㅇ(59.5) 03:47 676 0
487229 정보/ 잼민이 업뎃 이거였나보노.. [2] ㅇㅇ(119.77) 03:42 288 1
487228 일반 챗봇을 1년마다 2개씩 내도 모자를판에 ㅋㅋㅋ ㅇㅇ(61.255) 03:41 129 2
487227 일반 4.5라니 갑자기 이게 무슨 소리야 [1] ㅇㅇ(119.202) 03:39 194 0
487226 일반 년초 찌라시가 대선 끝나고 gpt5 나온다였는데 [2] ㅇㅇ(180.66) 03:36 164 0
487225 일반 교통사고가 갈수록 줄어드는 이유가뭐냐? [5] ㅇㅇ(114.205) 03:36 124 0
487224 일반 gpt가 위험하긴 한듯 ㅇㅇ(180.66) 03:35 72 0
487223 일반 찌라시) 안타깝지만 7월 4.5 확률이 높음 [5] ㅇㅇ(211.214) 03:34 381 0
487222 일반 공포분위기 조성하기전에 ㅇㅇ갤로그로 이동합니다. 03:34 99 0
487221 일반 완몰가 역노화 진짜 머나먼 꿈의 개소리같음 ㅋㅋ [2] ㅇㅇ(61.255) 03:33 113 1
487220 정보/ 오픈AI·구글 직원들 “AI 통제 못하면 인간 멸종 [9] ㅇㅇ(218.50) 03:19 336 1
487219 일반 지금 gpt 역대급으로 멍청하네 ㅇㅇ(121.172) 03:18 91 0
487218 일반 특붕이들이 생각하는 수직 발전의 기준이 뭐임 [6] ㅇㅇ(39.125) 03:18 115 0
487217 일반 챗봇 챗봇 하면서 내려치기하는 거 짜증나려고 그러네 [4] ㅇㅇ(119.202) 03:09 128 0
487216 일반 간간히 갤와서 개념글보고가는데 [1] ㅇㅇ(180.65) 03:04 112 0
487215 일반 근데 진짜 의학분야 발전이 너무 느림 [1] ㅇㅇ(61.255) 03:01 140 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2