간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17

조회 2660 추천 20 댓글 24

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라

문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다

* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다

* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ

* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가

* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...

* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...

* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요

* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼

* 제미니 1.5 pro

ㅋ

* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소

캬

이새끼 ㄹㅇ 정체가 뭐냐?

총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2

근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ

아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아

아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4

고정닉 10

원본 첨부파일 19본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2872	설문	연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은?	운영자	24/06/17	-	-
474731	일반	지금 떡밥 설명좀해줄사람? [4]	ㅇㅇ	05.15	196	0
474730	일반	완장아 일단 유동컷부터 좀 올려라 [1]	ㅇㅇ	05.15	81	1
474728	일반	치타 2백만 컨텍스트로 업데이트 [5]	ㅇㅇ(121.139)	05.15	151	1
474727	일반	AGI 하드웨어는 거진 갖췄는데, 소프트웨어 덕에 못나오는거로 봤는데. [1]	특갤련(223.62)	05.15	100	1
474726	일반	좀 진득히 지켜봐라 ㅅㅂ 고작 인터뷰하나가지고 호들갑은... [4]	ㅇㅇ(61.97)	05.15	215	0
474725	일반	구글은 좋겠다. 알트만이라는 좋은 방패가 있어서 [1]	도서관킬러	05.15	89	0
474724	일반	알트만 발언은 2050년에도 여전히 콘크리트로 집짓고 [8]	ㅇㅇ	05.15	261	0
474723	일반	gpt-옴니	ㅇㅇ(121.139)	05.15	65	0
474722	일반	갤이 하루아침에 우울갤로 바뀌었네 [3]	Jackey	05.15	182	0
474721	일반	신제품 챗봇쇼는 이제 그만하고	걸갤러(125.187)	05.15	62	0
474720	일반	난 LLM으론 특이점 어렵다는 쪽임 [2]	ㅇㅇ(106.101)	05.15	150	0
474718	일반	29년 agi 45년 asi [2]	ㅇㅇ(116.37)	05.15	115	0
474717	일반	철학적 질문을 하니까 gpt 4o하고 4하고 차이 많이 나네 [1]	ㅇㅇ(210.182)	05.15	155	0
474716	일반	gpt-4o 쓰는방법 알려줄 사람 [3]	ㅇㅇ(39.7)	05.15	134	0
474715	정보/ 정보/뉴스	'GPT-4o' 등장에 폭발적 반응..."AGI의 시작 vs 쇼에 불과"	연맛	05.15	172	1
474714	일반	gpt-4o 가 자꾸 거짓말한다는 애들한테 무슨 질문 했냐고 하면	ㅇㅇ(112.170)	05.15	85	1
474713	일반	feel the AGI 이지랄을 단체로 근들갑 떨어 놓고선 [1]	ㅇㅇ	05.15	173	0
474712	일반	이새기들은 her 보고도 뻬엑 거리네	ㅇㅇ(210.90)	05.15	102	0
474711	일반	얘네는 왜 llm성능가지고 특이점을 논할까?? [10]	ㅇㅇ	05.15	229	0
474709	일반	gpt4가 agi 1단계라고 추정하는 애들도 있었지않나 [5]	ㅇㅇ(211.184)	05.15	137	0
474708	일반	어제 편의점 사장 뺨 때렸던 게이다... 용서빌러 간다 [4]	ㅇㅇ(211.179)	05.15	182	1
474707	일반	이미 브랜드 네이밍 지우기 들어간거 보면 모르겠냐? [2]	ㅇㅇ(118.235)	05.15	144	1
474706	일반	솔직히 이번 건 선형충의 판정승이긴 하다	ㅇㅇ(121.128)	05.15	92	0
474705	일반	선형충의 판정승!	et	05.15	69	0
474703	일반	주4일제 근무시간 단축 어디갔냐고!!!!!!!!! [2]	Samus	05.15	144	0
474702	일반	나는 llm 멸망 너무 기분좋음 [4]	ㅇㅇ(118.42)	05.15	192	0
474701	일반	샘 알트만 인터뷰 '냉정하게' 요약 정리 , [12]	ㅇㅇ(211.179)	05.15	397	2
474700	일반	2445년 특이점이온다...	ㅇㅇ(118.235)	05.15	55	0
474699	일반	애초에 인류는 노동을 하기 위해 진화한 종이 아님 [8]	ㅇㅇ	05.15	198	0
474698	일반	2045년AGI가온다 [3]	ㅇㅇ(1.227)	05.15	120	0
474697	일반	45년까지 존버한다.. [5]	ㅇㅇ(116.37)	05.15	96	0
474696	일반	Gpt5가 좋은 모습 보여줘도 그게 한계일거란 말이지 [2]	ㅇㅇ(121.144)	05.15	122	0
474695	일반	내심 알트만 나락 발언으로 기분 좋은 주딱은 개추 [1]	ㅇㅇ	05.15	114	0
474694	일반	agi까지만 도달하면 2~30년 내로는 asi 가능 아님?	ㅇㅇ(211.184)	05.15	63	0
474693	일반	ㅋㅋㅋ우리 쫓아내더니 잘됐다 ㅅㅂ련둘 ㅋㅋㅋㅋ [5]	ㅇㅇ(112.186)	05.15	207	0
474692	일반	125조 크기의 아라키스는 왜 폐기됐을까? [1]	ㅇㅇ	05.15	107	0
474691	역노화	역노화 우리어머니 돌아가시기전에 가능할가요? [5]	알갤러(1.255)	05.15	494	0
474689	일반	결국 llm 한계론자의 승리구나	ㅇㅇ(121.144)	05.15	107	0
474688	일반	gpt 5 이미 만들어 놓고 정렬 들어간거 아니였어??	ㅇㅇ(121.132)	05.15	76	0
474687	일반	빠른 도약과 느린 도약에 대해서 [1]	ㅇㅇ(175.206)	05.15	118	0
474686	일반	나 인터넷 키보드 배틀 무패임 [2]	ㅇㅇ	05.15	153	0
474685	일반	여기 AI 얘기를 하는 갤인 줄 알았는데 [8]	ㅇㅇ(119.202)	05.15	261	1
474684	일반	GPT4O는 지능더좋고 속도훨빠르고 이미지인식훨씬잘하고	ㅇㅇ(1.227)	05.15	155	0
474683	일반	미국 특붕이들도 대혼란일까	ㅇㅇ(121.128)	05.15	78	0
474682	일반	알트먼이 말을 돌려말해 그렇지 [8]	ㅇㅇ(211.107)	05.15	242	2
474681	일반	구버전 gpt-4 조만간 선택지 없어지겠네 [1]	ㅇㅇ(218.110)	05.15	116	0
474680	일반	pc방 전압기 내리고 손님들 분노조절장애 취급하는 꼴이지	ㅇㅇ	05.15	49	0
474678	일반	히스테리 없는 여친이라면 플라토닉 사랑 쌉가능.. [5]	ㅇㅇ	05.15	144	0
474677	일반	반년 뒤) 마법같네요. "GPT5-mini 출시"	도서관킬러	05.15	158	1
474676	일반	llm ai가못한다는것들 GPT5나오면 싹바뀜	ㅇㅇ(1.227)	05.15	70	0