디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] "GPT-4.5의 깜짝 등장인가"...'GPT-4' 능가한다는 챗봇 화제

ㅇㅇ(182.230) 2024.05.01 15:23:27
조회 1118 추천 3 댓글 6
														

https://www.aitimes.com/news/articleView.html?idxno=159250

 



7ce88974b08207f739ee83e44eee76687b0bfe051d7bf1f0501b6bc515536a139722



출처를 알 수 없는 인공지능(AI) 챗봇이 인간 투표로 순위를 매기는 대형언어모델(LLM) 리더보드 ‘챗봇 아레나’에 등장, 화제가 되고 있다. 일부에서는 'GPT-4'와 맞먹거나 일부 능가하는 성능 때문에 'GPT-4.5'가 아니냐는 추측을 내놓고 있다.

 

벤처비트와 마크테크포스트 등은 30일(현지시간) ‘gpt2-챗봇(gpt2-chatbot)’이라는 모델이 챗봇 아레나에 소리 소문 없이 등장했다고 전했다. 이 때문에 관련 연구 및 개발 커뮤니티가 현재 떠들썩하다고 전했다.


이에 따르면 이 모델은 누가 만들었는지, 왜 예고 없이 벤치마크 사이트에 공개했는지 알려지지 않았다. 더욱이 이 모델의 성능이 오픈AI의 GPT-4에 견줄만할 정도로 뛰어나다는 평가를 받는 것이 핵심이다. 


gpt2-챗봇의 출현을 밀착 추적해 온 스텐포드대학교 학생 앤드류 가오는 X(트위터)를 통해 “누가 만들었는지는 명백히 알 수 없지만, 적어도 그것이 GPT-4 수준이라는 평가에 동의할 것이다”라고 말했다.


그는 “이 모델이 고등학생을 대상으로 한 국제 수학 올림피아드(IMO)의 문제를 첫번째 시도 만에 해결했다”라며 "이 시험은 미국에서도 최고 학생 4명만이 경쟁할 수 있을 정도로 미친 듯이 어렵다"라고 설명했다. 



7ce88974b08207f739ee83e446ee7569f38c8ded0ffc31c68e010ecb42939e0bfa



에단 몰릭 펜실베이니아대학교 와튼스쿨 교수는 자신의 실험에서 “이 모델이 GPT-4보다 더 나은 성능을 보였다”라며 "설명하기 쉽지 않지만, 유니콘 그림을 그리는 코드 작성(Tikz)과 같은 복잡한 추론 작업에서 GPT-4보다 훨씬 낫다"라고 말했다.



7ce88974b08207f739ee83e44fee766b172a6aa332f5c71b4db3cbd1628a5b51c5



많은 전문가들은 gpt2-챗봇이 오픈AI에서 제작한 것으로 생각하고 있다. 실제 모델은 스스로를 "GPT-4 아키텍처를 기반으로 하는 오픈AI에서 훈련된 LLM 챗GPT"라고 답한다. 그러나 이 주장은 AI 시스템이 자신을 잘못된 방식으로 설명하도록 지시될 수 있기 때문에, 사실 여부를 확인할 방법은 없다.


또 일부 전문가는 gpt2-챗봇과 오픈AI 모델의 유사점을 증거로 내밀었다. 


이에 대해 가오는 X에서 "나와 다른 사람들에게도 이 챗봇은 오픈AI가 만들었다고 밝혔다"라며 “그러나 많은 모델이 오픈AI 채팅을 데이터로 학습했기 때문에 자신이 오픈AI에서 만든 것으로 생각하는 '데이터 오염'일 가능성이 크다”라고 말했다.


덜 알려진 회사나 연구진이 깜짝 등장을 노리고 내놓았을 가능성도 ​​남아 있다. 일부에서는 'GPT-4챈(GPT-4chan)'의 예를 들기도 했다. 이는 2022년 6월 AI 연구자인 야닉 킬처가 공개한 논란이 많았던 AI 모델로, 'GPT'라는 네이밍을 사용했지만 오픈AI와는 관련이 없었다. 또 유해한 콘텐츠를 생성한다는 이유로 결국 허깅페이스 플랫폼에서 삭제됐다.



7ce88974b08207f739ee83e447ee756935f0f8406f350ffee49c1722bfc3c78ecef0



전문가들은 gpt2-챗봇을 조사하고 실험하며 차별화된 능력을 발견하기도 했다. 이 때문에 GPT-4.5가 아니냐는 추측이 나왔다.


어려운 코드를 작성하는 능력이 대표적이다. 체이스 맥코이 코드젠 창립 엔지니어는 "GPT-4나 '클로드 3 오퍼스'보다 새로운 모델을 테스트하는 데 사용하는 모든 코딩 프롬프트에서 더 뛰어난 성능을 발휘했다"라고 말했다.


심지어 일부 사용자는 이 모델이 답변을 반복적으로 개선하기 위해 소통할 수 있다는 것을 발견했다. 이는 자신의 한계와 사고 과정을 인식한다는 것을 보여준다는 설명이다. 


가오는 "이 모델은 무엇을 해야 하는지를 계획하는 면에서는 GPT-4보다 더 뛰어난 것 같다"라며 "예를 들어, 확인해야 할 잠재적인 사이트와 검색 쿼리를 제시한다. GPT-4는 이 점에서 훨씬 모호하다"라고 말했다.


또 사용자들은 대체로 챗GPT와 같은 이전 챗봇보다 규칙을 위반하고 제한 사항을 무시하려는 의지가 더 강하다고 지적했다. 


디미트리스 파파일리오폴로스 위스콘신대학교 교수는 “이 챗봇이 다른 모든 모델보다 더 잘하는 작업을 하나 찾았는데, GPT-4를 비롯해 모든 모델이 계속 실패한 논리 퍼즐을 해결할 수 있다”라며 "그것은 사실 전혀 쓸모없는 작업"이라고 농담을 덧붙였다.


반면 일부는 GPT-4와 능력이 유사하지만, 'GPT-5'에서 기대하는 것에는 미치지 못한다고 지적했다. 


AI 연구원인 조 폭스는 X에서 "거의 모든 모델을 상대로 비즈니스 아이디어 제안 프롬프트를 테스트해 봤는데, gpt2-챗봇의 응답이 약간 더 적극적인 행동을 보이는 정도"라며 "이는 gpt2-챗봇이 몇가지 실용적인 테스트에서 GPT-4를 크게 뛰어넘지 않는다는 것을 시사한다"라고 말했다.


이런 소문이 퍼져 나가며 많은 전문가와 개발자가 gpt2-챗봇이 올라와 있는 챗봇 아레나에 몰려 들었다.


결국 챗봇 아레나를 운영하는 LMSYS는 1일 "예상치 못한 높은 트래픽과 용량 한계로 인해 gpt2-챗봇을 일시적으로 오픈 라인 상태로 전환했다”라고 발표했다.


자동등록방지

추천 비추천

3

고정닉 2

댓글 영역

전체 댓글 0
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3007 설문 실제 모습일지 궁금한 미담 제조기 스타는? 운영자 25/05/05 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427) ㅇㅇ갤로그로 이동합니다. 24.11.23 33621 45
609935 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [1] ㅇㅇ갤로그로 이동합니다. 25.01.18 19299 30
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 5632 15
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. ㅇㅇ갤로그로 이동합니다. 24.11.24 4999 6
717500 일반 역노화 기원 316일차 ㅇㅇ갤로그로 이동합니다. 12:02 1 0
717499 일반 마소계정 계속 해킹시도 오는데 [1] ㅇㅇ갤로그로 이동합니다. 12:00 34 0
717498 일반 요즘 느끼는건데 특이점은 무조건 와야함 [1] ㅇㅇ갤로그로 이동합니다. 11:57 48 0
717497 일반 검열 안먹는 그록 야한 소살상황극 프롬 추천좀 MCmh860pt갤로그로 이동합니다. 11:57 12 0
717496 일반 로건 이미지 업데이트 한데 ㅇㅇ(121.66) 11:53 46 0
717495 일반 나는 머스크말을 100%믿는 사람으로써 이번주에 AGI가 나오는거에 [2] ㅇㅇ갤로그로 이동합니다. 11:50 112 0
717494 일반 진짜 전기 낭비네 이건 [4] 4테라갤로그로 이동합니다. 11:49 175 4
717493 일반 제미나이는 0506이 아니라 코딩 전용으로 했어야할듯... [2] 갉달비갤로그로 이동합니다. 11:48 106 0
717492 일반 치타쉑 다시 우리 안으로 들어간 거임? ㅇㅇ(49.246) 11:48 29 0
717491 일반 구글은 걍 가장 돈을 잘 버는 기업중 하나고 2.5 프로가 그렇게 [1] ㅇㅇ갤로그로 이동합니다. 11:48 85 0
717490 일반 Aider 벤치마크 비용 정상화 이후 비교 [3] ㅇㅇ(220.79) 11:47 81 1
717489 일반 근데 gpt4o 요즘 또 더 좋아진것 같은데 나만 그렇게 느낌? [1] ㅇㅇ(126.254) 11:46 61 0
717488 정보/ 속보) Aider 벤치마크 제작자 : 제미니 돈 더들어간다 [2] ㅇㅇ(220.79) 11:44 174 4
717487 일반 근데 왜 보이스,tts 쪽은 발전이 별로 없음? [1] ㅇㅇ(126.254) 11:44 47 0
717486 정보/ IBM,ㅡ AI로 인력 재편... 전체 고용은 오히려 증가 [7] ㅇㅇ갤로그로 이동합니다. 11:43 105 3
717485 일반 트럼프 중대발표 테크쪽 얘기가 아니네 [10] ㅇㅇ갤로그로 이동합니다. 11:39 254 0
717484 일반 제미니 2.0에서 이미지 뽑는데 [8] ㅇㅇ(116.42) 11:39 110 0
717483 일반 아이큐 떡락이유는 이거지 ㅇㅇ갤로그로 이동합니다. 11:38 69 0
717482 일반 이자 원금 계산도 못하는 구글 AI [1] 무한탐구(218.234) 11:35 162 0
717481 일반 5월 잼황 아이큐 하락? [2] ㅇㅇ갤로그로 이동합니다. 11:31 166 2
717480 일반 구글 ai스튜디오 원래 좀 끊기나 [2] ㅇㅇ(121.142) 11:30 64 0
717479 일반 모솔인데 gpt한테 전반적인 헤어,패션, 화장품 같은 질문해도 되나? [3] ㅇㅇ(211.203) 11:30 57 0
717477 일반 갑자기 모든 중국인과 이슬람이 사라진 세상 [2] ㅇㅇ갤로그로 이동합니다. 11:26 85 0
717475 일반 요즘 라이브벤치는 그냥 쓰레기 된거 같네 [1] ㅇㅇ갤로그로 이동합니다. 11:25 83 0
717474 일반 ais가 뭐임? [2] ㅇㅇ갤로그로 이동합니다. 11:25 87 0
717473 정보/ 미국, 국가별 등급에 따른 AI반도체 수출통제 계획 폐기 방침 니지카엘갤로그로 이동합니다. 11:23 85 0
717472 일반 삼성전자, ‘AI 생산성 혁신 그룹’ 신설 [4] ㅇㅇ(112.185) 11:23 119 0
717471 일반 지피티 무료쓰는데 한도 얼마나 줄은거임? [2] 불신갤로그로 이동합니다. 11:22 71 0
717470 일반 제미나이 프로 0506 reddit 반응 모음 [1] ㅇㅇ갤로그로 이동합니다. 11:21 184 3
717469 일반 2.5 잼황 5월달 코딩 벤치 궁금한데 왜 안돌리지 ㅋㅋ ㅇㅇ갤로그로 이동합니다. 11:21 36 0
717468 일반 확률 계산하는거해봤는데 ㅇㅇ(14.42) 11:16 43 0
717467 일반 4o는 비추론모델 아니었나? [7] ㅇㅇ갤로그로 이동합니다. 11:13 159 1
717466 일반 지브리풍 그림 딸깍 미쳤네. [2] ㅇㅇ갤로그로 이동합니다. 11:09 151 0
717465 일반 계속 소설 성능 개판됐다길래 써봤는데 진짜 개판됐네ㅋㅋㅋㅋ [2] ㅇㅇ(121.144) 11:02 237 0
717464 일반 다음 중 가장 돈을 많이 벌 수 있는 기술은? [5] ㅇㅇ(125.190) 11:02 130 0
717463 일반 ais 0506 작문 능력 떨어졌음? [1] ㅇㅇ(126.158) 11:01 110 0
717462 일반 그래도 나중에 몸이 아프지 않는 시대가 온다면 [1] ㅇㅇ(211.189) 10:55 100 0
717461 일반 지금 코딩 기준 제미니 vs 클로드 누가 우위임? [3] ㅇㅇ(121.142) 10:54 120 0
717460 일반 커스텀 gpt 다들 쓰냐? [2] ㅇㅇ(183.96) 10:53 75 0
717459 일반 ais 딸숭이 질문좀 [6] ㅇㅇ(115.95) 10:51 141 0
717458 일반 카카오, AI 메이트 '카나나' 일부 이용자 대상 시범 서비스 [2] ㅇㅇ(112.185) 10:50 180 2
717457 일반 챗gpt 유료 구독이후 체중감소했음 [2] Rokos갤로그로 이동합니다. 10:45 196 0
717456 일반 원시시대부터 지금까지 인간생활은 바뀌지 않아 [3] ㅇㅇ(183.101) 10:43 145 1
717455 일반 겨울이네ㅋㅋ [1] 먼데이갤로그로 이동합니다. 10:42 67 0
717454 일반 그록은 유료 1개월 사용결과 구토욱갤로그로 이동합니다. 10:41 104 0
717453 일반 월 세전 500버는데 챗gpt 구독할돈 없다 [7] Rokos갤로그로 이동합니다. 10:40 269 0
717452 일반 코딩안할꺼면 잼민이 구독하는게 나음? [5] ㅇㅇ(210.178) 10:37 106 0
717451 일반 아 지피티 왤케 시발 멍청하지 ㅇㅇ갤로그로 이동합니다. 10:31 71 0
717450 일반 한국 시차로 그록 오늘은 나올일 없겠네 [1] MCmh860pt갤로그로 이동합니다. 10:29 114 0
717449 일반 지피티 한 8개월썼는데 구취했다.. [2] 세종대가고싶어서울었어갤로그로 이동합니다. 10:28 237 1
뉴스 월 4천만원 ‘적자 미술관’ 운영 백만장자…BTS RM→서장훈도 푹 빠졌다 (‘백만장자’) 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2