디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17
조회 2645 추천 20 댓글 24
														

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라



문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다


* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다


* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ


* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가


* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...


* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

??

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...


* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요


* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼


* 제미니 1.5 pro



* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소


이새끼 ㄹㅇ 정체가 뭐냐?



총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2


근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ


아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아



아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4
자동등록방지

추천 비추천

20

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
471167 정보/ 개쩌는 오픈AI, GPT-4o 음성 모델 영상 모음 [22] 월코존버갤로그로 이동합니다. 05.14 5292 37
471082 일반 ㄹㅇ TTS, stt 모델 갖다 버렸네 도약이노 [16] ㅇㅇ(220.71) 05.14 4191 21
471058 일반 오늘새벽 광란의 특갤 실전 요약.jpg [10] ㅇㅇ갤로그로 이동합니다. 05.14 4692 39
471035 일반 GPT-5 진행상황 곧 공개? [12] ㅇㅇ(59.5) 05.14 4619 24
470838 일반 이미지 인식능력 돌았다 [9] ㅇㅅㅇ(210.91) 05.14 3835 22
470819 일반 Gpt4o 이미지 인식능력 장난아니네 [7] ㅇㅅㅇ(210.91) 05.14 4144 19
470537 정보/ GPT-4o MMLU 88.7 [9] ㅇㅇ(61.82) 05.14 3195 19
470528 AI창 gpt4o로 만든거 gif로 쪄왔다 ㅋㅋㅋㅋ 싹 다 가속시켜!!! [18] ㅇㅇ(121.162) 05.14 2314 22
470492 일반 GPT-4o는 3시간당 80개 메세지 가능 [20] ㅇㅇ(175.208) 05.14 4506 25
470467 일반 이쯤에서 특갤 민심 테스트 간다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [15] lightvector갤로그로 이동합니다. 05.14 3356 70
470406 정보/ 너희들 마지막에 집중안했노 [5] ㅇㅇ(119.77) 05.14 3035 23
470303 일반 영화 her 새짤 개웃기노 ㅋㅋㅋㅋ [15] ㅇㅇ(222.99) 05.14 5017 41
470283 일반 GPT4 초기랑 비슷하니 뭐니하던거 웃음벨이고 ㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.14 2130 23
470248 일반 얘한테 당장 7000조 줘야하면 개추 [9] ㅇㅇ(121.131) 05.14 3711 67
470244 정보/ gpt4o 추가 예시 [26] 특갤용갤로그로 이동합니다. 05.14 4578 31
469010 정보/ [오피셜] 고화질 also 벤치마크 떴다!!!! [20] lightvector갤로그로 이동합니다. 05.14 3517 29
470025 정보/ 오늘 밝혀진 중요한 정보 [13] ㅇㅇ(119.77) 05.14 3568 27
470148 정보/ 속보))알트만의 gpt-4o 모델 설명!!!!!!!! [10] lightvector갤로그로 이동합니다. 05.14 4146 31
470217 일반 알트만 : her [23] ㅇㅇ(59.5) 05.14 2960 28
470153 일반 gpt-4o api 써봤다 속도 뭐냐..................?? [29] ㅇㅇ(49.143) 05.14 4226 26
470139 일반 한국어 토큰 1.7배 감소 [3] ㅇㅇ(125.250) 05.14 2844 23
469815 정보/ 오늘 새벽 OpenAI 발표 총요약본...txt [26] lightvector갤로그로 이동합니다. 05.14 7408 60
469797 일반 시발년들아 개추 안박고 뭐하냐 [8] ㅇㅇ(58.29) 05.14 2246 56
467482 일반 와 진짜 뭐가오길래 공홈에다 이따구로 근들갑떨어놓은거임? ㅋㅋ [29] ㅇㅇ(124.111) 05.13 4836 40
467404 일반 오늘 자러간 꿀잠충, 출근충, 선형충이 보게 될 상황...JPG [13] ㅇㅇ(175.125) 05.13 3487 33
467355 일반 와 시발 also 진짜 말도 안 되네 [14] ㅇㅇ(210.106) 05.13 4051 22
467137 일반 ??? : 지는 거예요...? [5] ㅇㅇ(218.156) 05.13 2994 28
467129 일반 특갤 개씹뒤집어지는 시나리오... [20] ㅇㅇ갤로그로 이동합니다. 05.13 4089 43
467036 일반 also랑 gpt-4 초기랑 비슷하다 이 지랄하네 ㅋㅋ [31] ㅇㅇ(106.247) 05.13 3407 30
466881 일반 딱 봐도 이거 확정이네 [37] ㅇㅇ(220.71) 05.13 5382 33
466436 일반 고민하는 ai는 진짜 대박인데? [59] ㅇㅇ(117.20) 05.12 6226 31
466269 정보/ 챗지피티에 GPT4.5 업데이트 암시 [15] ㅇㅇ(121.124) 05.12 4957 27
466105 일반 흥분하는 openai 연구원 [42] ㅇㅇ(125.191) 05.12 5723 22
466096 일반 모레 새벽 특갤 예상 [20] ㅇㅇ(211.197) 05.12 3974 40
466090 AI창 gpt2로 DOOM 만들기 [58] ㅇㅇ갤로그로 이동합니다. 05.12 7149 81
465944 일반 "내부적으로 달성된 agi는 없어ㅎㅎ" [36] ㅇㅇ(114.202) 05.11 4561 42
465939 일반 알트만이 UBI와 AGI 분배에 대해 언급한 영상들 [16] 월코존버갤로그로 이동합니다. 05.11 3120 27
465911 일반 [긴급] 애플, 아이폰에 Chat GPT 탑재 협상 중 [2] ㅇㅇ(218.147) 05.11 673 24
465871 일반 알트만: 내부적으로 AGI는 없어 ㅎㅎ 미안! [16] ㅇㅇ(59.17) 05.11 4138 25
465859 일반 알트만 : 존나좋다. 기대해라 [36] ㅇㅇ(59.5) 05.11 4761 23
465851 일반 알트만 NSFW 직접언급 사칭아님 ㅇㅇㅇ [11] ㅇㅇ(59.5) 05.11 2278 17
465806 일반 GPT-5는 없을 수도 [31] 특술람갤로그로 이동합니다. 05.11 3841 16
465772 정보/ OAI 연구원 : "GPT5보다 멋질 것" [25] ㅇㅇ(118.235) 05.11 4121 17
465433 정보/ 방금 샘알트만 오피셜 "GPT-5도, 검색엔진도 아니다." [48] 초존도초갤로그로 이동합니다. 05.11 5310 33
465412 정보/ 소금•물 이용해 인간 뇌세포처럼 움직이는 바이오컴퓨터 [8] ㅇㅇ(182.230) 05.11 2463 23
465403 정보/ 에너지 밀도가 19배 높은 새로운 커패시터 [2] ㅇㅇ(118.39) 05.11 249 13
465374 정보/ 유전자 치료로 11세에 처음 소리 들었다…"정상 청력 회복" [25] ㅇㅇ(182.230) 05.10 2860 32
465275 일반 "자, 다 모이셨군요!" [19] ㅇㅇ갤로그로 이동합니다. 05.10 4289 26
465172 정보/ 나노 수준의 해상도로 재구성된 인간 대뇌 피질의 페타복셀 조각 [16] ㅇㅇ(118.39) 05.10 1668 16
465079 일반 also-gpt2가 만들어준 2인용 핑퐁게임 [3] 천사다천사갤로그로 이동합니다. 05.10 1660 17
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2