AI 모델에서 "그것"은 데이터셋이다.
저는 거의 1년간 OpenAI에서 근무해 왔습니다. 그 시간 동안 저는 많은 생성 모델을 훈련시켰습니다. 사실상 누구도 그렇게 많이 훈련시킬 권리가 없을 정도로 많이요. 여러 모델 구성과 하이퍼파라미터를 조정하면서 관찰한 시간 동안, 모든 훈련 실행 사이에 유사성이 있다는 것이 점점 뚜렷해졌습니다.
이 모델들이 그들의 데이터셋을 놀랍도록 정교하게 근사화하고 있다는 사실이 점점 분명해지고 있습니다. 이것이 의미하는 바는 그들이 개나 고양이가 무엇인지를 배우는 것뿐만 아니라, 사람들이 자주 찍는 사진이나 흔히 쓰는 단어와 같은 중요하지 않은 분포 사이의 빈도를 배운다는 것입니다.
이는 충분한 가중치와 훈련 시간을 가진 모든 모델들이 같은 데이터셋으로 충분히 오래 훈련되면 거의 모두 동일한 지점으로 수렴한다는 것으로 나타납니다. 충분히 큰 diffusion conv-unets는 ViT 생성기와 동일한 이미지를 생성합니다. AR 샘플링은 diffusion과 동일한 이미지를 생성합니다.
이는 놀라운 관찰입니다! 이것은 모델 행동이 아키텍처, 하이퍼파라미터 또는 최적화 선택에 의해 결정되지 않는다는 것을 의미합니다. 그것은 당신의 데이터셋에 의해 결정됩니다, 그 밖의 다른 것은 없습니다. 다른 모든 것은 그 데이터셋을 효율적으로 근사화하기 위해 계산을 전달하는 수단에 불과합니다.
그러므로 우리가 '람다', '챗GPT', '바드', '클로드'를 언급할 때, 모델 가중치를 언급하는 것이 아닙니다. 그것은 데이터셋을 말하는 것입니다.
The “it” in AI models is the dataset.
Posted on June 10, 2023 by jbetker
I’ve been at OpenAI for almost a year now. In that time, I’ve trained a lot of generative models. More than anyone really has any right to train. As I’ve spent these hours observing the effects of tweaking various model configurations and hyperparameters, one thing that has struck me is the similarities in between all the training runs.
It’s becoming awfully clear to me that these models are truly approximating their datasets to an incredible degree. What that means is not only that they learn what it means to be a dog or a cat, but the interstitial frequencies between distributions that don’t matter, like what photos humans are likely to take or words humans commonly write down.
What this manifests as is – trained on the same dataset for long enough, pretty much every model with enough weights and training time converges to the same point. Sufficiently large diffusion conv-unets produce the same images as ViT generators. AR sampling produces the same images as diffusion.
This is a surprising observation! It implies that model behavior is not determined by architecture, hyperparameters, or optimizer choices. It’s determined by your dataset, nothing else. Everything else is a means to an end in efficiently delivery compute to approximating that dataset.
Then, when you refer to “Lambda”, “ChatGPT”, “Bard”, or “Claude” then, it’s not the model weights that you are referring to. It’s the dataset.
개념글에 올라온 글이 중요한 내용이라고 생각되는데 한글번역이 약간 난해한 부분이 있어서 클로드+GPT4 조합으로 재번역 해 봤다.
https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=459454
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.