"GPT-4.5의 깜짝 등장인가"...'GPT-4' 능가한다는 챗봇 화제

특이점이 온다 갤러리
마이너

" Don't Die "

매니저

sama(prince2317)

부매니저

퐁칸8(zxvw157) かみ(thank346…) VPN차단용(near1254) 카러닐(fasten97…) 디비휴(runny783…) DNA(hexase1) Asi(worship5…) et(evgz6v8f…)

개설일

2019-08-01

[정보/뉴스] "GPT-4.5의 깜짝 등장인가"...'GPT-4' 능가한다는 챗봇 화제

ㅇㅇ(182.230) 2024.05.01 15:23:27

조회 1118 추천 3 댓글 6

https://www.aitimes.com/news/articleView.html?idxno=159250

AI타임스

출처를 알 수 없는 인공지능(AI) 챗봇이 인간 투표로 순위를 매기는 대형언어모델(LLM) 리더보드 ‘챗봇 아레나’에 등장, 화제가 되고 있다. 일부에서는 'GPT-4'와 맞먹거나 일부 능가하는 성능 때문에 'GPT-4.5'가 아니냐는 추측을 내놓고 있다. 벤처비트와 마크테크포스트 등은 30일(현지시간) ‘gpt2-챗봇(gpt2-chatbot)’이라는 모델이 챗봇 아레나에 소리 소문 없이 등장했다고 전했다. 이 때문에 관련 연구 및 개발 커뮤니티가 현재 떠들썩하다고 전했다.이에 따르면 이 모델은 누가 만들었는지, 왜 예고 없이 벤치

www.aitimes.com

7ce88974b08207f739ee83e44eee76687b0bfe051d7bf1f0501b6bc515536a139722

출처를 알 수 없는 인공지능(AI) 챗봇이 인간 투표로 순위를 매기는 대형언어모델(LLM) 리더보드 ‘챗봇 아레나’에 등장, 화제가 되고 있다. 일부에서는 'GPT-4'와 맞먹거나 일부 능가하는 성능 때문에 'GPT-4.5'가 아니냐는 추측을 내놓고 있다.

벤처비트와 마크테크포스트 등은 30일(현지시간) ‘gpt2-챗봇(gpt2-chatbot)’이라는 모델이 챗봇 아레나에 소리 소문 없이 등장했다고 전했다. 이 때문에 관련 연구 및 개발 커뮤니티가 현재 떠들썩하다고 전했다.

이에 따르면 이 모델은 누가 만들었는지, 왜 예고 없이 벤치마크 사이트에 공개했는지 알려지지 않았다. 더욱이 이 모델의 성능이 오픈AI의 GPT-4에 견줄만할 정도로 뛰어나다는 평가를 받는 것이 핵심이다.

gpt2-챗봇의 출현을 밀착 추적해 온 스텐포드대학교 학생 앤드류 가오는 X(트위터)를 통해 “누가 만들었는지는 명백히 알 수 없지만, 적어도 그것이 GPT-4 수준이라는 평가에 동의할 것이다”라고 말했다.

그는 “이 모델이 고등학생을 대상으로 한 국제 수학 올림피아드(IMO)의 문제를 첫번째 시도 만에 해결했다”라며 "이 시험은 미국에서도 최고 학생 4명만이 경쟁할 수 있을 정도로 미친 듯이 어렵다"라고 설명했다.

7ce88974b08207f739ee83e446ee7569f38c8ded0ffc31c68e010ecb42939e0bfa

에단 몰릭 펜실베이니아대학교 와튼스쿨 교수는 자신의 실험에서 “이 모델이 GPT-4보다 더 나은 성능을 보였다”라며 "설명하기 쉽지 않지만, 유니콘 그림을 그리는 코드 작성(Tikz)과 같은 복잡한 추론 작업에서 GPT-4보다 훨씬 낫다"라고 말했다.

7ce88974b08207f739ee83e44fee766b172a6aa332f5c71b4db3cbd1628a5b51c5

많은 전문가들은 gpt2-챗봇이 오픈AI에서 제작한 것으로 생각하고 있다. 실제 모델은 스스로를 "GPT-4 아키텍처를 기반으로 하는 오픈AI에서 훈련된 LLM 챗GPT"라고 답한다. 그러나 이 주장은 AI 시스템이 자신을 잘못된 방식으로 설명하도록 지시될 수 있기 때문에, 사실 여부를 확인할 방법은 없다.

또 일부 전문가는 gpt2-챗봇과 오픈AI 모델의 유사점을 증거로 내밀었다.

이에 대해 가오는 X에서 "나와 다른 사람들에게도 이 챗봇은 오픈AI가 만들었다고 밝혔다"라며 “그러나 많은 모델이 오픈AI 채팅을 데이터로 학습했기 때문에 자신이 오픈AI에서 만든 것으로 생각하는 '데이터 오염'일 가능성이 크다”라고 말했다.

덜 알려진 회사나 연구진이 깜짝 등장을 노리고 내놓았을 가능성도 남아 있다. 일부에서는 'GPT-4챈(GPT-4chan)'의 예를 들기도 했다. 이는 2022년 6월 AI 연구자인 야닉 킬처가 공개한 논란이 많았던 AI 모델로, 'GPT'라는 네이밍을 사용했지만 오픈AI와는 관련이 없었다. 또 유해한 콘텐츠를 생성한다는 이유로 결국 허깅페이스 플랫폼에서 삭제됐다.

7ce88974b08207f739ee83e447ee756935f0f8406f350ffee49c1722bfc3c78ecef0

전문가들은 gpt2-챗봇을 조사하고 실험하며 차별화된 능력을 발견하기도 했다. 이 때문에 GPT-4.5가 아니냐는 추측이 나왔다.

어려운 코드를 작성하는 능력이 대표적이다. 체이스 맥코이 코드젠 창립 엔지니어는 "GPT-4나 '클로드 3 오퍼스'보다 새로운 모델을 테스트하는 데 사용하는 모든 코딩 프롬프트에서 더 뛰어난 성능을 발휘했다"라고 말했다.

심지어 일부 사용자는 이 모델이 답변을 반복적으로 개선하기 위해 소통할 수 있다는 것을 발견했다. 이는 자신의 한계와 사고 과정을 인식한다는 것을 보여준다는 설명이다.

가오는 "이 모델은 무엇을 해야 하는지를 계획하는 면에서는 GPT-4보다 더 뛰어난 것 같다"라며 "예를 들어, 확인해야 할 잠재적인 사이트와 검색 쿼리를 제시한다. GPT-4는 이 점에서 훨씬 모호하다"라고 말했다.

또 사용자들은 대체로 챗GPT와 같은 이전 챗봇보다 규칙을 위반하고 제한 사항을 무시하려는 의지가 더 강하다고 지적했다.

디미트리스 파파일리오폴로스 위스콘신대학교 교수는 “이 챗봇이 다른 모든 모델보다 더 잘하는 작업을 하나 찾았는데, GPT-4를 비롯해 모든 모델이 계속 실패한 논리 퍼즐을 해결할 수 있다”라며 "그것은 사실 전혀 쓸모없는 작업"이라고 농담을 덧붙였다.

반면 일부는 GPT-4와 능력이 유사하지만, 'GPT-5'에서 기대하는 것에는 미치지 못한다고 지적했다.

AI 연구원인 조 폭스는 X에서 "거의 모든 모델을 상대로 비즈니스 아이디어 제안 프롬프트를 테스트해 봤는데, gpt2-챗봇의 응답이 약간 더 적극적인 행동을 보이는 정도"라며 "이는 gpt2-챗봇이 몇가지 실용적인 테스트에서 GPT-4를 크게 뛰어넘지 않는다는 것을 시사한다"라고 말했다.

이런 소문이 퍼져 나가며 많은 전문가와 개발자가 gpt2-챗봇이 올라와 있는 챗봇 아레나에 몰려 들었다.

결국 챗봇 아레나를 운영하는 LMSYS는 1일 "예상치 못한 높은 트래픽과 용량 한계로 인해 gpt2-챗봇을 일시적으로 오픈 라인 상태로 전환했다”라고 발표했다.

고정닉 2

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
3007	설문	실제 모습일지 궁금한 미담 제조기 스타는?	운영자	25/05/05	-	-
571617	공지	뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427)	ㅇㅇ	24.11.23	33621	45
609935	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [1]	ㅇㅇ	25.01.18	19299	30
571620	공지	본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다.	ㅇㅇ	24.11.23	5632	15
572292	공지	직업 비하, 조롱 글 30일 차단됩니다.	ㅇㅇ	24.11.24	4999	6
717500	일반	역노화 기원 316일차	ㅇㅇ	12:02	1	0
717499	일반	마소계정 계속 해킹시도 오는데 [1]	ㅇㅇ	12:00	34	0
717498	일반	요즘 느끼는건데 특이점은 무조건 와야함 [1]	ㅇㅇ	11:57	48	0
717497	일반	검열 안먹는 그록 야한 소살상황극 프롬 추천좀	MCmh860pt	11:57	12	0
717496	일반	로건 이미지 업데이트 한데	ㅇㅇ(121.66)	11:53	46	0
717495	일반	나는 머스크말을 100%믿는 사람으로써 이번주에 AGI가 나오는거에 [2]	ㅇㅇ	11:50	112	0
717494	일반	진짜 전기 낭비네 이건 [4]	4테라	11:49	175	4
717493	일반	제미나이는 0506이 아니라 코딩 전용으로 했어야할듯... [2]	갉달비	11:48	106	0
717492	일반	치타쉑 다시 우리 안으로 들어간 거임?	ㅇㅇ(49.246)	11:48	29	0
717491	일반	구글은 걍 가장 돈을 잘 버는 기업중 하나고 2.5 프로가 그렇게 [1]	ㅇㅇ	11:48	85	0
717490	일반	Aider 벤치마크 비용 정상화 이후 비교 [3]	ㅇㅇ(220.79)	11:47	81	1
717489	일반	근데 gpt4o 요즘 또 더 좋아진것 같은데 나만 그렇게 느낌? [1]	ㅇㅇ(126.254)	11:46	61	0
717488	정보/ 정보/뉴스	속보) Aider 벤치마크 제작자 : 제미니 돈 더들어간다 [2]	ㅇㅇ(220.79)	11:44	174	4
717487	일반	근데 왜 보이스,tts 쪽은 발전이 별로 없음? [1]	ㅇㅇ(126.254)	11:44	47	0
717486	정보/ 정보/뉴스	IBM,ㅡ AI로 인력 재편... 전체 고용은 오히려 증가 [7]	ㅇㅇ	11:43	105	3
717485	일반	트럼프 중대발표 테크쪽 얘기가 아니네 [10]	ㅇㅇ	11:39	254	0
717484	일반	제미니 2.0에서 이미지 뽑는데 [8]	ㅇㅇ(116.42)	11:39	110	0
717483	일반	아이큐 떡락이유는 이거지	ㅇㅇ	11:38	69	0
717482	일반	이자 원금 계산도 못하는 구글 AI [1]	무한탐구(218.234)	11:35	162	0
717481	일반	5월 잼황 아이큐 하락? [2]	ㅇㅇ	11:31	166	2
717480	일반	구글 ai스튜디오 원래 좀 끊기나 [2]	ㅇㅇ(121.142)	11:30	64	0
717479	일반	모솔인데 gpt한테 전반적인 헤어,패션, 화장품 같은 질문해도 되나? [3]	ㅇㅇ(211.203)	11:30	57	0
717477	일반	갑자기 모든 중국인과 이슬람이 사라진 세상 [2]	ㅇㅇ	11:26	85	0
717475	일반	요즘 라이브벤치는 그냥 쓰레기 된거 같네 [1]	ㅇㅇ	11:25	83	0
717474	일반	ais가 뭐임? [2]	ㅇㅇ	11:25	87	0
717473	정보/ 정보/뉴스	미국, 국가별 등급에 따른 AI반도체 수출통제 계획 폐기 방침	니지카엘	11:23	85	0
717472	일반	삼성전자, ‘AI 생산성 혁신 그룹’ 신설 [4]	ㅇㅇ(112.185)	11:23	119	0
717471	일반	지피티 무료쓰는데 한도 얼마나 줄은거임? [2]	불신	11:22	71	0
717470	일반	제미나이 프로 0506 reddit 반응 모음 [1]	ㅇㅇ	11:21	184	3
717469	일반	2.5 잼황 5월달 코딩 벤치 궁금한데 왜 안돌리지 ㅋㅋ	ㅇㅇ	11:21	36	0
717468	일반	확률 계산하는거해봤는데	ㅇㅇ(14.42)	11:16	43	0
717467	일반	4o는 비추론모델 아니었나? [7]	ㅇㅇ	11:13	159	1
717466	일반	지브리풍 그림 딸깍 미쳤네. [2]	ㅇㅇ	11:09	151	0
717465	일반	계속 소설 성능 개판됐다길래 써봤는데 진짜 개판됐네ㅋㅋㅋㅋ [2]	ㅇㅇ(121.144)	11:02	237	0
717464	일반	다음 중 가장 돈을 많이 벌 수 있는 기술은? [5]	ㅇㅇ(125.190)	11:02	130	0
717463	일반	ais 0506 작문 능력 떨어졌음? [1]	ㅇㅇ(126.158)	11:01	110	0
717462	일반	그래도 나중에 몸이 아프지 않는 시대가 온다면 [1]	ㅇㅇ(211.189)	10:55	100	0
717461	일반	지금 코딩 기준 제미니 vs 클로드 누가 우위임? [3]	ㅇㅇ(121.142)	10:54	120	0
717460	일반	커스텀 gpt 다들 쓰냐? [2]	ㅇㅇ(183.96)	10:53	75	0
717459	일반	ais 딸숭이 질문좀 [6]	ㅇㅇ(115.95)	10:51	141	0
717458	일반	카카오, AI 메이트 '카나나' 일부 이용자 대상 시범 서비스 [2]	ㅇㅇ(112.185)	10:50	180	2
717457	일반	챗gpt 유료 구독이후 체중감소했음 [2]	Rokos	10:45	196	0
717456	일반	원시시대부터 지금까지 인간생활은 바뀌지 않아 [3]	ㅇㅇ(183.101)	10:43	145	1
717455	일반	겨울이네ㅋㅋ [1]	먼데이	10:42	67	0
717454	일반	그록은 유료 1개월 사용결과	구토욱	10:41	104	0
717453	일반	월 세전 500버는데 챗gpt 구독할돈 없다 [7]	Rokos	10:40	269	0
717452	일반	코딩안할꺼면 잼민이 구독하는게 나음? [5]	ㅇㅇ(210.178)	10:37	106	0
717451	일반	아 지피티 왤케 시발 멍청하지	ㅇㅇ	10:31	71	0
717450	일반	한국 시차로 그록 오늘은 나올일 없겠네 [1]	MCmh860pt	10:29	114	0
717449	일반	지피티 한 8개월썼는데 구취했다.. [2]	세종대가고싶어서울었어	10:28	237	1
	뉴스	월 4천만원 ‘적자 미술관’ 운영 백만장자…BTS RM→서장훈도 푹 빠졌다 (‘백만장자’)	디시트렌드	10:00