디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17
조회 2633 추천 20 댓글 24
														

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라



문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다


* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다


* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ


* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가


* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...


* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

??

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...


* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요


* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼


* 제미니 1.5 pro



* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소


이새끼 ㄹㅇ 정체가 뭐냐?



총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2


근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ


아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아



아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4
자동등록방지

추천 비추천

20

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
479945 일반 알트만 왜 한국어 안함?? 내적친밀감 존나 생겨서 한국말할줄 ㅇㅇ(59.17) 05.22 44 0
479944 일반 링크어딧냐 [2] ㅇㅇ(1.231) 05.22 53 0
479943 일반 앞으로 다가올 모델이 가장 중요하다 ㅇㅇ갤로그로 이동합니다. 05.22 32 0
479942 일반 GPT5는 gpt4o의 절반가격, 2배의 속도, 5배의 성능 [1] ㅇㅇ(121.162) 05.22 191 0
479941 일반 갤주 하체운동좀 해야겠노 ㅇㅇ(14.35) 05.22 42 0
479939 일반 마소가 투자한 게 얼만데 이 정도는 여기서 선공개해주겠지 빙냥이ㄱㅇㅇ갤로그로 이동합니다. 05.22 37 0
479938 정보 기다린 보람있으면 개추 ㅋㅋㅋㅋ [3] ㅇㅇ(119.77) 05.22 242 4
479936 일반 K-개월. ㅇㅇ갤로그로 이동합니다. 05.22 50 0
479935 일반 가자 ㅇㅇ(121.162) 05.22 24 0
479933 일반 ㅅㅂ 진짜 뭐나오나 보네 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(203.251) 05.22 69 0
479932 일반 지금 유튜브만 살아있음 [2] ㅇㅇ(119.64) 05.22 100 0
479931 일반 오픈AI api 푼 거 개씨발존나뒤집어진다 뒷구멍 빨아주기 입갤 ㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.22 60 0
479930 일반 인터뷰하지말고 발표하라고 조트만아 ㅇㅇ ㅇㅇ(59.17) 05.22 22 0
479929 일반 공손하노 ㅋㅋㅋㅋ ㅇㅇ(14.35) 05.22 24 0
479928 일반 진짜 오노 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [5] ㅇㅇ(119.77) 05.22 225 2
479927 일반 안보이니까 사진좀 찍어두셈 ㅇㅇ(119.64) 05.22 30 0
479925 일반 다들 수고했다 [2] ㅇㅇ(125.183) 05.22 100 0
479924 일반 지구행성 주딱(진) 발표중 ㄷㄷㄷ [1] lightvector갤로그로 이동합니다. 05.22 115 0
479923 일반 알트만 입갤ㅋㅋㅋㅋㅋ MoonChild갤로그로 이동합니다. 05.22 20 0
479921 일반 손 씨발 존나 너드같노 ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.22 27 0
479920 일반 입갤 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(121.131) 05.22 9 0
479919 일반 god just came 싸이버펑크갤로그로 이동합니다. 05.22 50 0
479918 정보 어어... 진짜 뭐 온다!! [1] ㅇㅇ(119.77) 05.22 129 1
479917 일반 어스 행성 황제 입갤!! ㅇㅇ(203.251) 05.22 13 0
479916 일반 발표 어디서 봐?? [1] dd(14.36) 05.22 31 0
479915 일반 이게섹스지... 하루사메갤로그로 이동합니다. 05.22 13 0
479914 일반 아니 왜 나만끝남??????? [1] ㅇㅇ(119.64) 05.22 39 0
479913 일반 게이새끼 등장ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.22 18 0
479912 일반 싹 다!!!!!!!!! ㅇㅇ갤로그로 이동합니다. 05.22 9 0
479911 일반 진짜 나오넹 ㅇㅇ갤로그로 이동합니다. 05.22 60 0
479910 일반 알트만 진짜 너드같이 생겼네 ㅇㅇㅇ ㅇㅇ(59.17) 05.22 17 0
479909 일반 나온다 알트만 은바다갤로그로 이동합니다. 05.22 24 0
479908 일반 섹스..... ㅇㅇ갤로그로 이동합니다. 05.22 12 0
479907 일반 신 입갤 ㅇㅇ(175.118) 05.22 9 0
479906 일반 똥꼬 입갤 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [1] ㅇㅇ(59.17) 05.22 28 0
479905 일반 오픈AI 뒷구멍 다 헐겠노 [1] ㅇㅇ갤로그로 이동합니다. 05.22 63 0
479904 일반 고래로 비유하네 ㅇㅇ(203.251) 05.22 28 0
479903 일반 넥스트 샘플 커밍 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ ㅇㅇ(59.17) 05.22 29 0
479902 일반 미국이 끝났는데 핑 때문에 한국은 하는 거면 ㅇㅍㅈ갤로그로 이동합니다. 05.22 32 1
479900 일반 계속 oai랑 알트만 gpt 언급하잖아 ㅇㅇ 곧 알트만은 나온다 ㅇㅇ(59.17) 05.22 34 0
479899 일반 여기서 안나오면 올해 주요행사는 이제 언제임? [4] ㅇㅇ(112.161) 05.22 53 0
479898 일반 큰거온다 ㅇㅇ(106.101) 05.22 19 0
479897 일반 와 진짜 개에반데 사티야 ㅇㅇ(119.64) 05.22 26 0
479896 일반 진짜 끝난거 맞음? ㅇㅇ(119.77) 05.22 36 0
479895 일반 아니 왜자꾸 GPT4 그래프 보여주지 진짜뭔가있나보다 ㅇㅇ(203.251) 05.22 54 1
479894 일반 알트만 4o 발표 때 안 나온 이유가 있음 [4] 빙냥이ㄱㅇㅇ갤로그로 이동합니다. 05.22 190 3
479893 일반 나 미국 사는데 끝남 [5] ㅇㅇ(175.198) 05.22 220 0
479892 일반 알트만 나오네 ㅋㅋㅋㅋ [1] ㅇㅇ(203.251) 05.22 78 0
479891 일반 샘알트만 이름 언급도르로 출연 ㅋㅋㅋㅋ ㅇㅇ(59.17) 05.22 47 0
479890 일반 알트만 언급 빙냥이ㄱㅇㅇ갤로그로 이동합니다. 05.22 35 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2