디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17
조회 2660 추천 20 댓글 24
														

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라



문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다


* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다


* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ


* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가


* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...


* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

??

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...


* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요


* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼


* 제미니 1.5 pro



* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소


이새끼 ㄹㅇ 정체가 뭐냐?



총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2


근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ


아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아



아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4
자동등록방지

추천 비추천

20

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2872 설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
474731 일반 지금 떡밥 설명좀해줄사람? [4] ㅇㅇ갤로그로 이동합니다. 05.15 196 0
474730 일반 완장아 일단 유동컷부터 좀 올려라 [1] ㅇㅇ갤로그로 이동합니다. 05.15 81 1
474728 일반 치타 2백만 컨텍스트로 업데이트 [5] ㅇㅇ(121.139) 05.15 151 1
474727 일반 AGI 하드웨어는 거진 갖췄는데, 소프트웨어 덕에 못나오는거로 봤는데. [1] 특갤련(223.62) 05.15 100 1
474726 일반 좀 진득히 지켜봐라 ㅅㅂ 고작 인터뷰하나가지고 호들갑은... [4] ㅇㅇ(61.97) 05.15 215 0
474725 일반 구글은 좋겠다. 알트만이라는 좋은 방패가 있어서 [1] 도서관킬러갤로그로 이동합니다. 05.15 89 0
474724 일반 알트만 발언은 2050년에도 여전히 콘크리트로 집짓고 [8] ㅇㅇ갤로그로 이동합니다. 05.15 261 0
474723 일반 gpt-옴니 ㅇㅇ(121.139) 05.15 65 0
474722 일반 갤이 하루아침에 우울갤로 바뀌었네 [3] Jackey갤로그로 이동합니다. 05.15 182 0
474721 일반 신제품 챗봇쇼는 이제 그만하고 걸갤러(125.187) 05.15 62 0
474720 일반 난 LLM으론 특이점 어렵다는 쪽임 [2] ㅇㅇ(106.101) 05.15 150 0
474718 일반 29년 agi 45년 asi [2] ㅇㅇ(116.37) 05.15 115 0
474717 일반 철학적 질문을 하니까 gpt 4o하고 4하고 차이 많이 나네 [1] ㅇㅇ(210.182) 05.15 155 0
474716 일반 gpt-4o 쓰는방법 알려줄 사람 [3] ㅇㅇ(39.7) 05.15 134 0
474715 정보/ 'GPT-4o' 등장에 폭발적 반응..."AGI의 시작 vs 쇼에 불과" 연맛갤로그로 이동합니다. 05.15 172 1
474714 일반 gpt-4o 가 자꾸 거짓말한다는 애들한테 무슨 질문 했냐고 하면 ㅇㅇ(112.170) 05.15 85 1
474713 일반 feel the AGI 이지랄을 단체로 근들갑 떨어 놓고선 [1] ㅇㅇ갤로그로 이동합니다. 05.15 173 0
474712 일반 이새기들은 her 보고도 뻬엑 거리네 ㅇㅇ(210.90) 05.15 102 0
474711 일반 얘네는 왜 llm성능가지고 특이점을 논할까?? [10] ㅇㅇ갤로그로 이동합니다. 05.15 229 0
474709 일반 gpt4가 agi 1단계라고 추정하는 애들도 있었지않나 [5] ㅇㅇ(211.184) 05.15 137 0
474708 일반 어제 편의점 사장 뺨 때렸던 게이다... 용서빌러 간다 [4] ㅇㅇ(211.179) 05.15 182 1
474707 일반 이미 브랜드 네이밍 지우기 들어간거 보면 모르겠냐? [2] ㅇㅇ(118.235) 05.15 144 1
474706 일반 솔직히 이번 건 선형충의 판정승이긴 하다 ㅇㅇ(121.128) 05.15 92 0
474705 일반 선형충의 판정승! et갤로그로 이동합니다. 05.15 69 0
474703 일반 주4일제 근무시간 단축 어디갔냐고!!!!!!!!! [2] Samus갤로그로 이동합니다. 05.15 144 0
474702 일반 나는 llm 멸망 너무 기분좋음 [4] ㅇㅇ(118.42) 05.15 192 0
474701 일반 샘 알트만 인터뷰 '냉정하게' 요약 정리 , [12] ㅇㅇ(211.179) 05.15 397 2
474700 일반 2445년 특이점이온다... ㅇㅇ(118.235) 05.15 55 0
474699 일반 애초에 인류는 노동을 하기 위해 진화한 종이 아님 [8] ㅇㅇ갤로그로 이동합니다. 05.15 198 0
474698 일반 2045년AGI가온다 [3] ㅇㅇ(1.227) 05.15 120 0
474697 일반 45년까지 존버한다.. [5] ㅇㅇ(116.37) 05.15 96 0
474696 일반 Gpt5가 좋은 모습 보여줘도 그게 한계일거란 말이지 [2] ㅇㅇ(121.144) 05.15 122 0
474695 일반 내심 알트만 나락 발언으로 기분 좋은 주딱은 개추 [1] ㅇㅇ갤로그로 이동합니다. 05.15 114 0
474694 일반 agi까지만 도달하면 2~30년 내로는 asi 가능 아님? ㅇㅇ(211.184) 05.15 63 0
474693 일반 ㅋㅋㅋ우리 쫓아내더니 잘됐다 ㅅㅂ련둘 ㅋㅋㅋㅋ [5] ㅇㅇ(112.186) 05.15 207 0
474692 일반 125조 크기의 아라키스는 왜 폐기됐을까? [1] ㅇㅇ갤로그로 이동합니다. 05.15 107 0
474691 역노화 역노화 우리어머니 돌아가시기전에 가능할가요? [5] 알갤러(1.255) 05.15 494 0
474689 일반 결국 llm 한계론자의 승리구나 ㅇㅇ(121.144) 05.15 107 0
474688 일반 gpt 5 이미 만들어 놓고 정렬 들어간거 아니였어?? ㅇㅇ(121.132) 05.15 76 0
474687 일반 빠른 도약과 느린 도약에 대해서 [1] ㅇㅇ(175.206) 05.15 118 0
474686 일반 나 인터넷 키보드 배틀 무패임 [2] ㅇㅇ갤로그로 이동합니다. 05.15 153 0
474685 일반 여기 AI 얘기를 하는 갤인 줄 알았는데 [8] ㅇㅇ(119.202) 05.15 261 1
474684 일반 GPT4O는 지능더좋고 속도훨빠르고 이미지인식훨씬잘하고 ㅇㅇ(1.227) 05.15 155 0
474683 일반 미국 특붕이들도 대혼란일까 ㅇㅇ(121.128) 05.15 78 0
474682 일반 알트먼이 말을 돌려말해 그렇지 [8] ㅇㅇ(211.107) 05.15 242 2
474681 일반 구버전 gpt-4 조만간 선택지 없어지겠네 [1] ㅇㅇ(218.110) 05.15 116 0
474680 일반 pc방 전압기 내리고 손님들 분노조절장애 취급하는 꼴이지 ㅇㅇ갤로그로 이동합니다. 05.15 49 0
474678 일반 히스테리 없는 여친이라면 플라토닉 사랑 쌉가능.. [5] ㅇㅇ갤로그로 이동합니다. 05.15 144 0
474677 일반 반년 뒤) 마법같네요. "GPT5-mini 출시" 도서관킬러갤로그로 이동합니다. 05.15 158 1
474676 일반 llm ai가못한다는것들 GPT5나오면 싹바뀜 ㅇㅇ(1.227) 05.15 70 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2