AI 모델에서 "그것"은 데이터셋이다. - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] AI 모델에서 "그것"은 데이터셋이다.

ㅇㅇ(61.73) 2024.04.25 12:02:33

조회 1761 추천 24 댓글 7

AI 모델에서 "그것"은 데이터셋이다.

2023년 6월 10일 jbetker 작성

저는 거의 1년간 OpenAI에서 근무해 왔습니다. 그 시간 동안 저는 많은 생성 모델을 훈련시켰습니다. 사실상 누구도 그렇게 많이 훈련시킬 권리가 없을 정도로 많이요. 여러 모델 구성과 하이퍼파라미터를 조정하면서 관찰한 시간 동안, 모든 훈련 실행 사이에 유사성이 있다는 것이 점점 뚜렷해졌습니다.

이 모델들이 그들의 데이터셋을 놀랍도록 정교하게 근사화하고 있다는 사실이 점점 분명해지고 있습니다. 이것이 의미하는 바는 그들이 개나 고양이가 무엇인지를 배우는 것뿐만 아니라, 사람들이 자주 찍는 사진이나 흔히 쓰는 단어와 같은 중요하지 않은 분포 사이의 빈도를 배운다는 것입니다.

이는 충분한 가중치와 훈련 시간을 가진 모든 모델들이 같은 데이터셋으로 충분히 오래 훈련되면 거의 모두 동일한 지점으로 수렴한다는 것으로 나타납니다. 충분히 큰 diffusion conv-unets는 ViT 생성기와 동일한 이미지를 생성합니다. AR 샘플링은 diffusion과 동일한 이미지를 생성합니다.

이는 놀라운 관찰입니다! 이것은 모델 행동이 아키텍처, 하이퍼파라미터 또는 최적화 선택에 의해 결정되지 않는다는 것을 의미합니다. 그것은 당신의 데이터셋에 의해 결정됩니다, 그 밖의 다른 것은 없습니다. 다른 모든 것은 그 데이터셋을 효율적으로 근사화하기 위해 계산을 전달하는 수단에 불과합니다.

그러므로 우리가 '람다', '챗GPT', '바드', '클로드'를 언급할 때, 모델 가중치를 언급하는 것이 아닙니다. 그것은 데이터셋을 말하는 것입니다.

The “it” in AI models is the dataset.

Posted on June 10, 2023 by jbetker

I’ve been at OpenAI for almost a year now. In that time, I’ve trained a lot of generative models. More than anyone really has any right to train. As I’ve spent these hours observing the effects of tweaking various model configurations and hyperparameters, one thing that has struck me is the similarities in between all the training runs.

It’s becoming awfully clear to me that these models are truly approximating their datasets to an incredible degree. What that means is not only that they learn what it means to be a dog or a cat, but the interstitial frequencies between distributions that don’t matter, like what photos humans are likely to take or words humans commonly write down.

What this manifests as is – trained on the same dataset for long enough, pretty much every model with enough weights and training time converges to the same point. Sufficiently large diffusion conv-unets produce the same images as ViT generators. AR sampling produces the same images as diffusion.

This is a surprising observation! It implies that model behavior is not determined by architecture, hyperparameters, or optimizer choices. It’s determined by your dataset, nothing else. Everything else is a means to an end in efficiently delivery compute to approximating that dataset.

Then, when you refer to “Lambda”, “ChatGPT”, “Bard”, or “Claude” then, it’s not the model weights that you are referring to. It’s the dataset.

개념글에 올라온 글이 중요한 내용이라고 생각되는데 한글번역이 약간 난해한 부분이 있어서 클로드+GPT4 조합으로 재번역 해 봤다.

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=459454

고정닉 10

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2861	설문	어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는?	운영자	24/05/20	-	-
462193	정보	공정한 MMLU 벤치마크 결과 [4]	ㅇㅇ(119.77)	05.02	628	13
462302	정보	르쿤이형, 누군가를 저격한듯한 발언 [30]	ㅇㅇ(119.77)	05.03	3191	30
462294	정보	일리야 수츠케버, 생존신고 [18]	ㅇㅇ(119.77)	05.03	2626	21
462270	정보	AI용어) Prompt vs Fine-tuning vs RAG [10]	ㅇㅇ(182.230)	05.03	1346	21
461992	정보	샘 알트만 : 2030년에도 삶은 크게 달라지지 않을 것 [69]	ㅇㅇ(119.77)	05.02	5901	38
461983	정보	지난주 스탠포드대학교 샘알트만 강연 비디오 [18]	ㅇㅇ(125.191)	05.02	2052	21
462055	일반	소신발언) 근데 그냥 gpt-5로 안내면 되는거 아님? [7]	ㅇㅇ(1.239)	05.02	2490	21
462054	정보	벤치마크딸 모델들의 민낯 공개 [21]	ㅇㅇ(119.77)	05.02	3142	28
461945	일반	스압)노동종말 이후에 찾아올것은 [10]	냉법비법화법	05.02	1708	27
461921	일반	KAN 간략한 정리글 [47]	ㅇㅇ(221.152)	05.02	4538	23
461900	일반	KAN이라는 엄청난 것이 떴나본데 [24]	ㅇㅇ(106.102)	05.02	3707	21
461743	일반	gpt2의 정체에 대한 추측 (진지글) [12]	ㅇㅇ(210.223)	05.01	2925	23
461605	일반	이름가지고 장난치는거 보니까 슬슬 끝물같으면 개추ㅋㅋㅋ [5]	ㅇㅇ(211.197)	05.01	4237	40
461548	일반	GPT2에 대한 가장 그럴듯한 설명 [34]	모브	04.30	3495	30
461546	일반	S 곡선 끄트머리 같으면 개추 [13]	ㅇㅇ(112.165)	04.30	3412	35
461511	정보	찍이점) 심장 미세환경까지 구현한 미니 장기 ‘오가노이드’ 나왔다 [5]	ㅇㅇ(182.230)	04.30	1801	24
461505	정보	영상의 디테일을 부활시키며 업스케일하는 AI ‘Video GigaGAN’ [20]	ㅇㅇ(182.230)	04.30	2808	23
461494	일반	gpt2 최신 갤떡밥 요약.jpg [11]	ㅇㅇ(218.155)	04.30	4818	32
461362	일반	GPT2 ㄹㅇ 퀀텀점프 아니냐 ㄷㄷㄷ [26]	ㅇㅇ	04.30	4773	41
363468	일반	고전) 특갤 문학 고전 명작 모음집 [20]	ㅇㅇ(61.84)	23.10.15	5332	72
461177	일반	gpt2-chatbot 써보는 방법 [8]	ㅇㅇㅇ(1.220)	04.30	4117	26
461021	일반	간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자 [24]	ㅇㅇ(106.102)	04.30	2637	20
461011	일반	애초에 '환각'이라는 표현부터가 이상함 [33]	ㅇㅇ(121.173)	04.30	3153	18
461007	일반	오늘자 오픈AI 트윗 말장난 [16]	모브	04.30	3356	26
460981	일반	OpenAI 개발자 플랫폼 새로운 기능 추가 [15]	ㅇㅇ(112.144)	04.30	3116	25
460951	일반	보스턴다이나믹스 신규영상 [19]	ㅇㅇ(125.183)	04.30	2960	23
460872	일반	근데 왜 미국애들은 새벽에 뭐 발표함?? [23]	lightvector	04.29	3184	31
460861	일반	속보) GPT 올해의 가장 큰 업데이트 발표 [13]	ㅇㅇ	04.29	4164	27
460815	일반	응 gpt5 나와 이 병신들아 [21]	ㅇㅇ	04.29	3114	33
460811	일반	오늘 그냥 잘꺼면 개추 ㅋㅋ [15]	ㅇㅇ(58.29)	04.29	1742	43
460748	일반	내일 무조건 GPT-5 나오는 이유 5가지.jpg [19]	ㅇㅇ(182.230)	04.29	3091	27
460726	정보	또 등장한 '소라'의 한계 지적..."영화 제작은 시기상조" [13]	ㅇㅇ(182.230)	04.29	518	13
460686	정보	깃허브 개발자 "내일 큰 거 온다" [20]	ㅇㅇ(125.191)	04.29	3214	26
460658	정보	제미니 울트라 1.5 [13]	ㅇㅇ(125.191)	04.29	939	15
460650	정보	국내 직장인 셋 중 하나 "생성형 AI 10년 안에 내 업무 대체할 것" [13]	ㅇㅇ(125.191)	04.29	2436	28
460611	정보	2024년 AI 스타트업을 위한 데이터 수집 전략 [3]	ㅇㅇ(182.230)	04.29	1595	21
460626	일반	자본주의는 망해야 함 [24]	ㅇㅇ(58.29)	04.29	1843	34
460621	일반	무어의 법칙 이번에는 진짜 끝났다!! 발전 좆됐다!!! [35]	lightvector	04.29	3043	35
460600	정보	Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 [4]	ㅇㅇ(182.230)	04.29	733	21
460599	정보	Meta Llama 3 발표후, 첫 일주일간 생긴 일 [2]	ㅇㅇ(182.230)	04.29	1433	26
460583	정보	Figure 60 Minutes 영상 [14]	ㅇㅇ(125.191)	04.29	1113	16
460574	정보	중국의 AI 혁신으로 의사보다 두 배 빠른 속도로 식도암 병변 식별 [6]	ㅇㅇ	04.29	839	17
460165	정보	터미네이터 감독 "AI가 날 대신할 수도…배우는 대체 못 해" [7]	lightvector	04.27	1597	16
460448	정보	사람 음성 받아적는 AI도 '환각' 보여…"없는 말 지어내" [11]	ㅇㅇ(182.230)	04.28	936	15
460400	일반	나도 한명 저격해도 되냐 ㅅㅂ [5]	ㅇㅇ(14.53)	04.28	3027	30
460365	정보	르쿤이형 : 현재 LLM은 여전히 꽤 멍청. 인간수준 못넘을 것 [25]	ㅇㅇ(119.77)	04.28	3184	41
460363	정보	MS Copilot, 사용자 PC 파일 제어 기능 추가 [7]	ㅇㅇ(119.77)	04.28	717	24
460334	일반	근데 진짜 념글처럼 ai겨울인거 맞지 않음? [31]	ㅇㅇ(112.218)	04.28	2813	18
460332	일반	구글 방금 파이썬팀 해고 [39]	ㅇㅇ(125.191)	04.28	3926	21
460316	일반	최근 AI 근황 요약 [33]	ㅇㅇ(218.150)	04.28	4901	58