디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] gpt2의 정체에 대한 추측 (진지글)

ㅇㅇ(210.223) 2024.05.01 14:34:15
조회 2919 추천 23 댓글 12
														

모두 다 알겠지만 기본 지식부터 짚고 넘어가면 2017년에 그 유명한 'Transformer' 모델이 발표된 이후 LLM에서는 구글의 BERT와 OpenAI의 GPT로 대표되는 두 가지 파생 모델로 나뉘었고 GPT가 너무 압도적인 성능을 보여 너도나도 이쪽을 하고 있음. (Transformer와 정확히 어떻게 다른지는 직접 검색해봐)


그런데 GPT, GPT-2, GPT-3는 모델의 크기와 학습량, 즉 스케일이 커졌을 뿐 모델의 아키텍처 자체는 큰 변화가 없었어. GPT-3.5, GPT-4 는 모델이 공개가 되지 않아서 아무도 모르지만, 아마 더더욱 큰 스케일과 MoE를 적용한 것 이외에는 구조 자체는 비슷할거라고 추측할 수 있음. 제미니, 클로드, 여러가지 오픈소스 모델들이 다들 비슷비슷한 성능을 보여주는 이유도 기본적인 아키텍처 자체는 대단한 차이가 없어서 그럼. 여기서 스케일을 100배, 1000배 계속 늘리기만 한다면 성능이 올라가기는 할 텐데 그에 비례한 만큼의 전기(돈)이 들어가고 데이터를 합성해서 불리는 것도 한계가 있음. 그래서 LLM의 한계가 찾아왔다는 지적들도 지금 꽤 많지. 

여기서 GPT2라는 새로운 네이밍이 나왔다? 이는 Transformer를 기반으로 하지만 GPT의 아키텍처 자체를 '근본적'으로 개선한 새로운 라인업이라고 추측이 가능함. 물론 이에 대해 "그런 좋은 모델이 있다면 GPT-4에 비해 압도적으로 성능이 좋아야 할 것 아니냐!" 라는 반론이 가능함. 

하지만 OpenAI도 아예 신개념의 아키텍쳐를 새로 개발했다면 처음부터 GPT-4 급의 자본을 쏟아부어 큰 모델을 만들지 않고 작은 모델부터 순차적으로 학습시켜 볼 것임. 그러다 마침 GPT-4 혹은 그 이상 급의 학습이 완료된 것이고 객관적인 성능 확인 및 사람들의 관심을 끌기 위해 허깅페이스에 몰래 올려둔 것이라고 생각됨. 공개 전개 호들갑 떨지 않은 것은 아직은 작은 모델이니 대대적으로 광고하면 사람들이 실망할게 뻔하기 때문. 하지만 허깅페이스까지 기어 들어와 모델을 돌려본 사람들이라면 위와 같은 사실을 파악할 거라고 생각했겠지. 


좀 있으면 모델 크기 키워서 GPT2-5..... 같은 구린 네이밍으로 발표하지 않을까 싶음.... 이게 여름에 나온다는 모델일 수도 있고. 


요약: 

1. 단순 경량화 GPT-4 아니고 새로운 기술 도약일 가능성
2. 념글에 올라왔던 이 그림의 '불연속점' 으로 생각됨. 

a17d2cad2f1b782a99595a48fa9f3433f728bd6f6b8abd3c6f5faafbd3


자동등록방지

추천 비추천

23

고정닉 12

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7181 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2972] 특갤용갤로그로 이동합니다. 23.08.06 38356 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2322 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6976 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12974 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8702 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8056 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8918 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22431 33
480088 일반 이 갤에 성경 안읽은 사람 너무 많은거 같음 ㅇㅇ(175.192) 07:12 4 0
480087 일반 그렇네? 코딩을 모르는 정부가 어떻게 ai를 통제함? [2] ㅇㅇ(175.192) 07:08 27 0
480086 일반 AI들 씹선비짓 ㅈㄴ 짜증나네 ㅆㅂ ♡D^^갤로그로 이동합니다. 06:59 43 0
480085 일반 빅테크 “AI위험 통제 어려우면, 서비스 중단” [AI 서울정상회의] [3] 연맛갤로그로 이동합니다. 06:47 109 1
480084 정보 GPT-4o 출시하자 '챗GPT' 모바일 앱 수익 급등 연맛갤로그로 이동합니다. 06:46 81 2
480083 일반 마소가 진짜 외유내강임 탈조선갤로그로 이동합니다. 06:44 49 0
480082 일반 이미 사람들 클라우드 다 azure씀 [7] 탈조선갤로그로 이동합니다. 06:36 112 0
480081 일반 마소 얘네 ㄹㅇ 위험하다 탈조선갤로그로 이동합니다. 06:33 122 0
480080 일반 알트만 전지전능 천재설 [2] ㅇㅇ(117.20) 06:21 137 0
480079 일반 gpt5가 그 정도라면 gpt4o가 그렇게 나올수가있나? [7] ㅇㅇ(125.178) 06:20 119 0
480078 일반 ㅋㅋ 스칼렛 요한슨 진짜 어이가없네 [3] ㅇㅇ(211.179) 06:10 226 8
480077 일반 특붕이들아 우리는 앞으로 수천년을 더 살게 될거다 [11] ㅇㅇ갤로그로 이동합니다. 05:57 194 0
480076 일반 존버899일차 [1] alphaca갤로그로 이동합니다. 05:53 35 0
480075 정보 소신 하나는 대단한 형... [1] ㅇㅇ(119.77) 05:46 150 1
480074 일반 4o 대화창 삭제해도 이전 내용 기억하고 있는거 맞음? [16] ㅇㅇ갤로그로 이동합니다. 05:41 127 1
480073 일반 사람이 바뀌진 않지만. ㅇㅇ(49.1) 05:30 31 0
480072 일반 역노화가 불멸은 아니자나 [5] ㅇㅇ(14.45) 05:26 99 0
480071 일반 음성ai발전하면 ar쪽도 꽤 써먹을수있을거같음 ㅇㅇ(39.124) 05:23 54 0
480070 일반 그런데 어쩌면 asi 가 등장해도 세상은 그다지 변할 것 같진 않음 [12] ㅇㅇ(175.192) 05:20 149 0
480068 일반 이번 마소 빌드에서 가장 인상깊은거 [1] ㅇㅇ(118.235) 04:53 251 3
480067 일반 구글이라는 발사대가 없었으면 ㅇㅇ갤로그로 이동합니다. 04:48 67 0
480066 일반 gpt5 출시시기 오피셜 떳다 [2] 특이점맞냐갤로그로 이동합니다. 04:30 373 1
480065 일반 근데 마소에서도 발표안했는데 [2] ㅇㅇ(111.91) 04:25 177 0
480064 일반 이새끼 나랑 장난치나 [4] ㅇㅇ(211.104) 04:24 226 0
480063 일반 흠 좀 짜치는데..? [1] ㅇㅇ(118.235) 04:07 272 1
480062 일반 흠 정말이지 격변의 목격자가 되어서 ㅇㅇ(175.192) 04:06 90 0
480061 일반 사실 내용만 보면 오픈AI 스프링 업데이트보다 [2] ㅇㅇ갤로그로 이동합니다. 04:05 243 0
480060 일반 크기 정보가 진짜면 [2] ㅇㅇ(211.234) 04:03 183 0
480059 정보 MS, Devin과 파트너쉽 발표 "자율 AI 에이전트" [1] ㅇㅇ(119.77) 04:02 249 0
480058 일반 휴머노이드 나오면 같이 오토바이 여행해야지 떼껄룩해적단갤로그로 이동합니다. 04:01 63 1
480057 정보 Gemini1.5로 게임 어시스트 구현 성공 [3] ㅇㅇ(125.183) 03:59 242 2
480056 일반 구글io보단 알찼노ㅇㅇ [2] ㅇㅇ(121.131) 03:59 113 0
480055 일반 나중에 뇌만 옮기는 시술 나와서 [3] ㅇㅇ(111.91) 03:58 116 0
480054 일반 근데 gpt5 나온다고 해도 api로만 우선 나오겠지? ㅇㅇ(121.162) 03:58 44 0
480053 일반 김하정 다올투자증권 연구원은 ''올 여름 공개 예정인 GPT-5는.. [1] 제타플롭스갤로그로 이동합니다. 03:56 191 1
480052 일반 2024년 여름 어느 날...jpg [2] ㅇㅇ갤로그로 이동합니다. 03:55 204 2
480051 일반 아직도 회사 틀딱들은 AI 못믿어서 안쓴다더라 ㅋㅋ [4] ㅇㅇ(121.162) 03:55 204 0
480050 일반 언어모델이 언어모델을 훈련시키면 지수성장이 당연 가능함 ㅇㅇ(175.192) 03:55 49 0
480049 일반 질문) 창작영역에서 gpt4o랑 bing copilot이랑 뭐가 좋음? ㅇㅇ(114.206) 03:53 69 0
480048 일반 우리도 언젠가 ㅇㅇ갤로그로 이동합니다. 03:51 63 0
480047 일반 1년 반만에 성능 10배향상이면 미친거 아니냐? [3] ㅇㅇ(121.131) 03:51 207 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2