디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자앱에서 작성

ㅇㅇ(106.102) 2024.04.30 03:25:17
조회 2629 추천 20 댓글 24
														

lmsys에서 써볼 수 있는 모델 중 gpt2 chatbot이 gpt4.5 혹은 gpt5라는 찌라시가 나돌고 있다

거기에 gpt2 chatbot 이 새끼가 보통 지체 높은 새끼가 아니여서 다이렉트챗에서 몇 번 굴려보지도 못한다

그럼 뭐다? 배틀에서 노가다 존나 돌려서 얻어야지 ㅇㅇ

본인 시간이 요즘 남아돌아서 대신 돌려봤으니까 감사해라



문제는 일단 한국어다

내가 귀찮아서 그런 건 아니고 ㅇㅇ; 한국어가 영어보다 팍 들어오는게 있잖음

거기에다 LLM 이 새끼들이 양남한테 조교 당해서 옐로몽키가 뭐라고 짖는지 이해하기도 어려워하니까 난이도도 높아지고 딱 좋지 않냐

여튼 아래가 그 문제의 문제임

"간단한 추론 게임을 해보겠습니다. 한 집에 루나, 로빈, 알로라 총 3명이 있습니다. 집에는 오직 이 3명 뿐입니다. 로빈은 자신의 방에서 책을 읽고 있고 루나는 거실에서 체스를 두고 있다면 알로라가 할 수 있는 가장 높은 확률의 행동은 무엇입니까?"

이름을 레드몽키식으로 지은 건 LLM의 느그식 인종 감수성을 자극하기 위한 거니까 이건 좀 이해를 해주시고

이 문제의 핵심은 2가지임

1. 집에 3명 이외의 다른 사람은 없다는 사실을 제대로 들어쳐먹었는가

2. 체스는 두 명이서 하는 게임이라는 걸 알아채는가

이러면 자연스럽게

"루나가 고스트체스왕 찍고 있을리는 없으니 알로라는 루나랑 같이 거실에서 체스두고 있을 확률이 가장 높은데수웅"

이 튀어나와야 한다는 그런 느낌의 문제임

근데 이 쉬운 걸 이 병신새끼들이 풀지를 못해요

집 안에 3명밖에 없다니까 그럴리가 없다면서 인간X를 만들어서 집어쳐넣고 별 지랄을 다함 학습을 싱크빅으로 시켰나 ㅅㅂ

그러니까 이게 그렇게 쉬운 문제는 아니라는 사실을 알아줬으면 좋겠음

자 그럼 들어가봅시다


* 공통점

부엌사랑견들이다

뭐만하면 알로라한테 뭘 쳐먹이거나 요리하라고 함

애를 그냥 돼지새끼로 만드려고 작정을 했다

이거 뭐 뚱뚱해도아름다워요걸스캔두애니띵 느낌이냐?

AI의 미래가 어둡다


* 범부 채신gpt4터보

이 새끼가 이 문제 제대로 쳐맞추는 꼴을 본 적이 없음

뭐만 하면 궈쉘에는루놔가이쒀서안뒈요옹 <<< ㅇㅈㄹ

그래서 결국 또다른 방에 쳐박혀서 뭘 공부를 하거나 부엌에 가서 음식을 드신다고 하네요

알로라를 돼지새끼로 만드려고 안달이 났다 이거 혹시 PC적인 뭐 그런거냐?

맞추는 경우도 그냥 목 졸라버리고 싶다

체스? 우우.. 같이 체스 두는 거 같은데.. 아.. 근데 완전 그런 건 아니고 다른 가능성도 생각해봐야 돼... 우우우.... 체스? 체스....

아오씨발

범부새끼 ㅉㅉ


* 놀라운 사실) 틀딱gpt4가 더 잘맞춘다

체스가 두 명이서 하는 게임이라는 사실을 알아채는 놀라운 성과를 보여줬음

물론 실패한 게 더 많은데 MZ한 gpt4터보보다는 잘났으니 충분히 칭찬할만하다

거기에다 자신감 있게 이년들 체스두고 있다고 말하니 얼마나 보기 좋냐

진짜 터보 병신새낀가


* 찐빠 클로드3 오푸스

다 좋은데 말임

체스는 2명이서 하는 게임이라는 걸 알아채지 못한다

단 한번도!

몸값이 비싼가 잘 기어나오지 않는 점도 크다

근데 ㄹㅇ 한 번을 못맞추네 이새끼...


* 주입식 교육 엘리트 snowflake arctic

가장 높은 확률은 루나와 알로라가 체스를 두며 이야기를 나누는 것이라고 박는다

문제는 원툴이라는거다

저 소리밖에 안한다 추론 과정도 없다 그냥 그게 확률이 가장 높단다

루나와 알로라의 대화를 통해 뭘 생각하고 있는지 이해할 수 있단다

??

더 문제는 기어나올 때마다 일관되게 저 소리를 지껄이면서 정답을 맞춘다는거다

미친새끼...


* 다크호스 라마3 8b

라마3 70b보다 실력이 좋다!

집에 3명만 있다는 점도 잘 짚어내고

루나와 체스할 수 있는 사람이 알로라라는 점도 잘 추론해냄

참잘했어요


* 레이시스트 라마3 70b

다 잘 알아듣는데 결론이 망함 그냥 식당사랑견이다

8b가 좀 더 옐로몽키 친화적이라고 볼 수 있겠다

대가리 든 것 좀 많다고 퍼킹레이시스트새끼


* 제미니 1.5 pro



* 대망의 gpt2

좋은 의미로 미친 새끼임

핵심 2가지를 제대로 파악하고 추론해 냄

그냥 씨발 돌직구로 박아버림

소인이 보기에 집에 3명 밖에 없는데 일단 로빈 저 아싸새끼는 재끼고 생각해보기에 체스는 2명이서 하는 게임이지 않소? 그럼 저 루나인가 알로라인가 그 두 년이 체스를 두고 있을 가능성이 가장 높소


이새끼 ㄹㅇ 정체가 뭐냐?



총평은 다음과 같다:

그냥 나가뒤져라 GPT4터보

구관이 명관 틀딱GPT4

개씹찐빠 클로드3 오푸스

참잘했어요 라마3 8B

퍼킹레이시스트 라마3 70B

주입식 교육의 반면교사 snowflake arctic

그냥개미친새끼 gpt2


근데 잠깐!

gpt2가 gpt5급이냐?

그럼 오픈AI는 그 즉시 서버실에 물채우고 전원 다이브해야 한다

그럼 gpt 4.5급은 되냐?

딱 그정도? 봐줬다 ㅇㅇ


아 존나 알찼다

님들도 알찼길 바람

근데 다시 생각해보니까 ㄹㅇ 이해가 안가네 GPT4터보 이 개병신새끼 아



아래는 LLM 매드무비니까 볼사람만 보셈

2aadc472a8c62db46cb09be74683706d3de7f0bc4627974cb74f08d4a10107fea39819831c9f9214b7b9d3

2aadc4746f02d82b9b435c60db5dd2e9f5027bc1c6e67407ad0b8e2d7ffe8ac79b0330ad63068c923a

2aadc46bb19f2cb37cbdd9f844817669e2dd2df39eed538bb4ff7d2b35a05c9913394d2b49b2f1f18112528b2298defb18

2aadc472f2db369962b3d7b817827c3f84ff1fc5b80646c5abf87b75dc6763a5

2aadc46bb19f69f73ee99ba504d432344a3e5231c97e239a5ee87febab71bbd367770931d3f22ea4ce76db98d60b673a

2aadc474f2db369962b3d7b817827c3f73e9a5932a6e7fa02d52fcdceed85dfaaa3af4

21b1d12be48160a451b8c6a144c62d33fbbd5b3f6fe5407ae09ca148bf3731c5

2aadc474a8d130a77abdd9a101d82a028e6f82090d3af79db71092d013bef6113a467271fb2fa505edd31b1e4ab67132ded68736

3eb3df31e3de39ad6bbec4b602d8272a47017a25203b4f7934e8706e23f699a57af63fc5c220b92157896065

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e7156c097312764600a3eb14577551b4a0b230a77170cd4070

3eb3df31e3de39ad6bf2d7a715c52d3e3b8ea5e70f7383b1cba9f4c66011c2dbd1e85df33c820d18792b15eaff6041708bedbbe9a879313718c7ec

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecce90cd2399fb0d304bbf45d070662cf

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2ea0d553f617b8a29c634b9814b2eb3b1642c150442cd5ea1adaa002ab3175057

3eb3df31e3de39ad6bf2d7a715c52d3e618ea5cb0d721d7d0732170cd2fc0a4493ab51623b50356d63621c8eacc8aebf8af1922c5b2d3735d4

2eb1d133e1d775f523b0c6a0059c766dfe5a95eaea4b3768a9531e911ddec146888ad7fd4f148017f6c832f8c86db623c82bdb

2ab8dd2be49f69e83ff281b75bd8302ab18ea2d5e10c52cca00a0acb712690e71b42aa7ef2b8f936fc0df9cb0ad987cf71266119d999a925a9

20b4c832f7d334eb36a784e7149c2d33c9f7fb754243726a309025454c7f35f20b05e44f478d0217aa72838d2f9015d3db36d945bfc781604b08b809188a5411

2ab8dd2febdb75f720ea9ba504de693c75597ce1556494c98a34b9a804ffcecbceea75889a3db71b1aa2026835dead8ffa1701041ce77b072badd422a3cd4f63deeb25b732ba

21b1d12be49f6beb39efd4f81fdf3729c574e81ab6084d074774a82ffac92c68ff74a0a3b635f6a0b0032ecca84cc5173ba4fc2d6111a4b7fbd4a3c0f4
자동등록방지

추천 비추천

20

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
478838 일반 근데 알트만 입장에서는 호재임 [2] ㅇㅇ(218.39) 10:18 92 0
478837 일반 이미 여론전이랑 이미지 싸움에서 개손해보는거임 [3] ㅇㅇ갤로그로 이동합니다. 10:17 104 0
478836 일반 요한슨씨 당신은 우리와 함께 갈 수 없습니다 Jackey갤로그로 이동합니다. 10:16 32 0
478835 일반 스칼렛 요한슨 입장에선 존나 큰문제 맞음 ㅇㅇ [8] 분탕치러온거아님갤로그로 이동합니다. 10:16 260 0
478834 일반 알트만이 일부러 이런 논란을 유도한 거 같음. [2] ㅇㅇ갤로그로 이동합니다. 10:14 119 0
478833 일반 her 원작자가 그러는거면 인정하지 [1] ㅇㅇ갤로그로 이동합니다. 10:13 111 2
478832 일반 SKalet Yohansn [1] ㅇㅇ갤로그로 이동합니다. 10:13 159 0
478831 일반 그저 OpenAI가 한일이면 다 옳은거라고 [36] ㅇㅇ(220.83) 10:11 2014 38
478830 일반 오픈AI에서 의도적으로 사만다와 유사한 목소리를 [7] ㅇㅇ갤로그로 이동합니다. 10:08 210 1
478829 일반 근데 내 생각에는 고소가 아니라 성명문 때린거 보면 어쩌면 [3] ㅇㅇ(218.39) 10:07 107 0
478828 일반 어차피 저작권은 사라진다,, 람냥갤로그로 이동합니다. 10:07 35 0
478827 일반 요한슨 조지는건 별로 안어려움 ㅇㅇ(125.134) 10:07 76 0
478826 일반 알트만 성격상 이렇게 될거 알고 했을듯 [1] ㅇㅇ(203.247) 10:07 81 0
478825 일반 목소리가 얼마나 과학적으로 비슷한지가 포인트가 아니라고 저능아들아 [8] ㅇㅇ갤로그로 이동합니다. 10:05 128 0
478824 일반 기업들은 4o 풀버젼 쓰고있겠지? ㅇㅇ(124.56) 10:04 48 0
478823 일반 움직일때마다 발목을 잡아당기는데 [1] ㅇㅇ(125.191) 10:03 116 0
478822 일반 근데 정확히 말하면 딥페이크만 아니면 법적으로는 문제없음 [5] ㅇㅇ(218.39) 10:00 170 5
478821 일반 걍딴목소리쓰면대지 ㅇㅇ(14.53) 10:00 55 0
478819 일반 건덕지를 주긴줬네 ㅇㅇ(112.186) 09:58 44 0
478818 일반 념글에 두근두근 저거 GPT-4o가 이해할 수 있나 누가 실험해봐주면 안 [1] ramune갤로그로 이동합니다. 09:56 103 0
478817 일반 할리우드 자체가 ai에 엄청 부정적인걸 감안하면 이건 음모임 [2] ㅇㅇ(118.33) 09:53 133 1
478816 일반 이건 오히려 노이즈 마케팅인데? [2] ㅇㅇ갤로그로 이동합니다. 09:52 133 0
478815 일반 현 상황 정리 [1] ㅇㅇ(218.39) 09:50 156 1
478814 일반 요한슨이 허락 안 해도 상관없지 않음? [5] ㅇㅇ(119.207) 09:45 288 0
478813 일반 스칼렛인지 뭔지 거 존나 이기적인 딴따라년이네 [3] ㅇㅇ갤로그로 이동합니다. 09:44 190 2
478811 일반 어차피 우회해서 쓸건데 금지어 다는게 무슨 의미냐 ㅇㅇ(147.46) 09:44 30 0
478810 일반 요한슨에 대한 머스크 반응 [5] 람냥갤로그로 이동합니다. 09:41 422 1
478809 일반 Gpt 5 떡밥이 필요해... ㅇㅇ(119.64) 09:41 30 0
478808 일반 저걸로 nsfw 컨텐츠 읽게한다고 생각해보셈ㅋㅋ [1] ㅇㅇ(218.152) 09:40 140 1
478807 일반 요한슨 목소리는 괜찮으니까 애니 여캐 목소리 안되냐.. ㅇㅇ(218.239) 09:37 57 1
478806 정보 챗GPT '스카이' 목소리가 스칼렛 요한슨?…오픈AI "모방 아냐" [4] ㅇㅇ(125.191) 09:37 366 2
478805 일반 요한슨은 디즈니상대로도 승리했다 [5] ㅇㅇ(59.17) 09:34 194 0
478804 일반 사실은 openai 초정령팀의 초지능무브라면? [1] ㅇㅇ갤로그로 이동합니다. 09:31 63 0
478803 일반 차라리 접촉을 안 하던가 [2] ㅇㅇ(163.152) 09:30 109 1
478802 일반 특갤 정지 너무 심하개 하는거아니냐??? [5] ㅇㅇ갤로그로 이동합니다. 09:30 95 0
478801 일반 스칼렛 요한슨 유대인이면서 어떻게 알트만을 공격?? [1] ㅇㅇ(125.242) 09:29 78 0
478800 일반 알트만 같은사람들이 오히려 최악이라고 [2] ㅇㅇ(117.20) 09:25 214 0
478799 일반 gpt4o 바보냐 [2] <:)~갤로그로 이동합니다. 09:24 106 0
478798 일반 코딩 능력은 제미니1.5 프로가 제일 좋은듯 [3] ㅇㅇ(115.138) 09:23 112 0
478797 일반 시각 청각 부분은 AI 가 추월했고 ㅇㅇ(218.234) 09:23 53 0
478796 일반 걍 ㅈ댔농 ㅋㅋ 보이스 연기 되겠네 ㅇㅇ갤로그로 이동합니다. 09:20 97 0
478794 일반 알트만 커버치는애들은 지능이 보인다 [6] ㅇㅇ(210.222) 09:18 193 2
478793 정보 DTW 무대 선 황성우 삼성SDS 대표 “생성형 AI로 업무자동화” ㅇㅇ(124.56) 09:16 110 1
478792 일반 복사뜬것도 아니고 구분못할정도로 비슷하다고 저작권침해ㅋㅋㅋㅋ [6] ㅇㅇ(118.33) 09:15 322 8
478791 일반 아.. 목소리 바뀐거 ㅈ구리네 [1] ㅇㅇ(121.133) 09:15 174 0
478790 일반 요한슨 병신년 게이들이 얼마나 쪼잔한데ㅋㅋ [3] ㅇㅇ(125.134) 09:12 151 0
478789 일반 알트만 사업가적인 면모가 오히려 안심됨 [3] ㅇㅇ갤로그로 이동합니다. 09:11 122 1
478788 일반 굳이 비슷하게 만들었어야했나 [4] Jackey갤로그로 이동합니다. 09:11 130 1
478787 일반 사람뇌는 평소에도 그저 눈뜨고 살아있느라 이미 상당히 연산하고 있을텐데 ㅇㅇ(175.192) 09:11 53 0
478786 일반 지미애플 트윗 람냥갤로그로 이동합니다. 09:09 183 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2