디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 하사비스가 말하는 합성데이터, 코딩

ㅇㅇ(121.178) 2025.04.11 06:15:48
조회 3921 추천 33 댓글 24
														


1d8e8272b5816bf73eef86e1439f2e2d54a6a4d76884bb2ea073c937


질문자 : (잠깐, 요즘 유행하는 주제인 '데이터가 고갈되고 있는 걸까요? 합성 데이터가 필요할까요?'라는 것에 대한 당신의 입장은 무엇인가요?)


하사비스 : 


현재 논쟁은 이러한 대규모 기반 모델이 거의 인터넷 전체를 사용했다는 것과 관련이 있다고 봅니다.

그것들로부터 학습을 시도하고 나면 무엇이 남았을까요? 세상에 있는 언어는 그게 거의 전부입니다.

물론 비디오, 오디오같은 다른 종류의 데이터도 있습니다.


저는 우리가 그런 모든 멀티모달 토큰을 다 소진했다고 보지는 않지만, 그것조차도 어떤 한계에 도달 할 것입니다.

그렇다면 질문은 '합성 데이터를 생성할 수 있는가?'가 됩니다.

그리고 저는 그것이 수학이나 코딩 분야에서 상당한 진전을 보고 있는 이유라고 생각합니다.

왜냐하면 그 영역들에서는 합성 데이터를 생성하기가 꽤 쉽기 때문입니다.


왜냐하면 합성 데이터의 문제는 당신이 올바른 분포, 즉 실제 분포에서 나온 데이터를 만들고 있는가 하는 점이기 때문입니다.

또한 당신이 생성하는 데이터가 정확한가 하는 점이죠.


그리고 수학, 코딩, 그리고 '게임' 같은 경우에는, 새로운 시스템의 훈련 데이터 입력으로 넣기 전에 최종 데이터를 실제로 테스트하고 그것이 정확한지 검증할 수 있습니다.

그래서 특정 영역들은 합성 데이터 생성에 매우 적합합니다.


질문자 : (요즘 Deepmind를 비롯한 모든 주요 연구소는 코딩 어시스턴트 개발에 집중하고 있는데요. 이에 대해 말씀해주세요.)


하사비스 :


저는 우리가 코딩 분야에서 매우 흥미로운 새로운 시대로 접어들고 있다고 생각합니다.

그리고 말씀하신 것처럼, 모든 주요 연구소들이 이 분야를 적극적으로 개척하고 있습니다.

합성 데이터를 만들기 쉽다는 점도 모두가 이 방향으로 나아가는 또 다른 이유죠.

그리고 제 생각에 우리는 앞으로, 최근 Vibe coding이라고 불리는 방향의 세상으로 나아가게 될 겁니다.

기본적으로 정말 자연어로 코딩을 하는거죠.


이런 일은 컴퓨터 역사에서도 본 적이 있습니다.

제가 80년대에 처음 프로그래밍을 시작했을 땐 어셈블리어로 코딩했죠.

물론, 지금 보면 왜 굳이 기계어를 썼을까 싶을 정도로 말도 안되는 일로 보입니다.

C언어로 시작해서, 파이썬 같은 언어가 나왔죠.


정말로, 프로그래밍 언어의 추상화 수준이 점점 더 높아지면서, 이제 이것을 자연스러운 마지막 단계로 볼 수 있습니다.

즉, "글쎄, 그냥 자연어를 쓰면 되지."라는 것이죠.

제 생각에 결국 우리가 도달하게 될 모습이 아마 그것일 겁니다.


여기서 흥미로운 점은, 이것이 창작자들 (디자이너, 게임 디자이너 등)에게 코딩을 더 쉽게 만들어 줄 것이라는 점입니다.

그래서 창의성 측면에서 꽤 흥미로울 거라고 봅니다.


하지만 앞으로 몇 년 동안은 확실히 코더들에게도 매우 좋을 수 있습니다.

왜냐하면 초기에 이 도구들로부터 가장 큰 혜택을 볼 사람들은 바로 그 분야의 전문가들이기 때문이죠.


제 생각에 현재의 전문가들(영화 제작자든, 게임 디자이너든, 코더든)이 이런 새로운 도구들을 받아들일 경우, 그들이 할 수 있는 일의 측면에서 마치 초인적인 능력을 발휘하게 될 일종의 과도기가 있을 겁니다.



요약:


1. 현실 데이터 한계와 합성 데이터의 부상: AI 학습에 사용되는 인터넷 데이터(특히 언어)는 거의 한계에 도달했고 다른 데이터(비디오, 오디오)도 곧 한계에 부딪힐 것이므로, AI 발전을 지속하기 위해 '합성 데이터(Synthetic Data)' 생성이 중요해지고 있습니다.


2. 합성 데이터 생성과 코딩 분야의 발전: 특히 수학, 코딩, 게임처럼 생성된 데이터의 '정확성 검증'이 쉬운 분야에서는 양질의 합성 데이터를 만들기 용이합니다. 이것이 최근 AI 코딩 보조 기술이 빠르게 발전하는 주요 이유 중 하나입니다.


3. 자연어 코딩 시대와 전문가의 역할 변화: 코딩은 점차 자연어로 소통하는 '바이브 코딩(Vibe Coding)' 형태로 진화하여 비전문가(디자이너 등)의 접근성을 높이고 창의성을 촉진할 것입니다. 동시에, 이 새로운 AI 도구를 능숙하게 활용하는 기존 전문가(코더, 디자이너 등)들은 당분간 생산성이 비약적으로 향상되는 '초인적인' 기회를 맞이하게 될 것입니다.

자동등록방지

추천 비추천

33

고정닉 28

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3006 설문 여행 같이 다니면 고난이 예상되는 스타는? 운영자 25/04/28 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427) ㅇㅇ갤로그로 이동합니다. 24.11.23 32197 43
609935 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [1] ㅇㅇ갤로그로 이동합니다. 25.01.18 14119 29
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 5472 15
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. ㅇㅇ갤로그로 이동합니다. 24.11.24 4790 6
713149 일반 팔란티어랑 미국 정부도 협업하나보네 ㅇㅇ(1.226) 12:36 50 0
713148 일반 2.5 플래쉬 라이브 벤치 종합점수 69점이네 [1] ㅇㅇ갤로그로 이동합니다. 12:36 60 0
713147 일반 SKT진짜 거지같네 ㅇㅇ(58.29) 12:34 81 1
713146 일반 근데 제미니 울트라 나오면 어드밴스드 유저 2.5pro제한 하는거 아님? [3] ㅇㅇ(125.248) 12:31 92 0
713145 일반 재미니 이전채팅참조 한글지원 언제되냐 ㅇㅇ갤로그로 이동합니다. 12:23 29 0
713144 일반 왜 죄다 STEM 자폐아 새끼들 밖에 없냐 [1] ㅇㅇ(122.44) 12:21 136 0
713143 일반 제미니 2.5프로 어느정도 자율성 있음? [6] ㅇㅇ(119.66) 12:16 153 1
713141 일반 샘알트만이 곧 능지가 물보다 싸진다던데 [10] Dippie갤로그로 이동합니다. 12:02 340 2
713140 일반 121 유동이 써준 phi-4 reasoning 다수결 저거 ㅇㅇ­갤로그로 이동합니다. 11:58 102 0
713139 일반 아마존 노바 모델에 대해선 벤치 나온거 없나? ㅇㅇ(1.226) 11:54 39 0
713138 일반 수학과에서 AI 기반 theorem prover 씀? [13] ㅇㅇ(169.211) 11:47 260 0
713137 일반 제미나이 왜 지가 버전몇인지도 모름? [16] ㅇㅇ(182.212) 11:43 333 0
713136 일반 다음 주 무언가 파바박 하고 출시 될 느낌 [3] ㅇㅇ갤로그로 이동합니다. 11:42 188 1
713135 일반 대학원에서 석사 박사들이 논문 AI로 졸라 찍어내는 중인가요? [6] ㅇㅇ갤로그로 이동합니다. 11:37 281 0
713134 일반 문명가속화는 모든인류가 이공계를 전면공부 해야하는게 아닐까 [11] ㅇㅇ갤로그로 이동합니다. 11:36 181 0
713132 일반 슈퍼그록 구독 기간 끝나고 자꾸 자동결제 시도하는데 [7] ㅇㅇ(211.224) 11:28 155 0
713131 일반 구글 CEO "크롬 매각, 사업에 큰 타격…혁신 저해할 것" ㅇㅇ(221.149) 11:27 222 2
713130 정보/ Meta, 2035년에 AI로 최대 '1조4천억 달러' 수익 예측 [6] ㅇㅇ(121.178) 11:13 326 5
713129 일반 Ai 스튜디오는 채팅방끼리 공유되지 않나요? [2] ㅇㅇ(220.71) 11:13 201 0
713128 정보/ 카카오, 한국어 특화 멀티모달 언어모델 '카나나-o' 성능 공개 [9] ㅇㅇ(58.237) 11:12 474 10
713127 정보/ 노벨상 이제모을루, 세상에 없던 새로운 거 창조해야 ai리더 될 것 [4] ㅇㅇ갤로그로 이동합니다. 10:57 404 6
713126 일반 모나리지기 요즘에 태어나서 찍은 인스타 셀카 ㅇㅇ갤로그로 이동합니다. 10:56 241 3
713124 일반 phi-4-reasoning 꽤 괜찮은 것 같은데 [4] ㅇㅇ(121.178) 10:53 178 1
713123 일반 앤트로픽은 뭔가 지금 확신에 든 상태인거 같음 [21] ㅇㅇ갤로그로 이동합니다. 10:39 757 10
713122 일반 소형모델은 진짜 금방금방 좋아지는거같네 [4] ㅇㅇ(115.139) 10:33 218 2
713121 일반 앤트로픽은 계속 내년 말 27년 초를 밀고 있네 [21] ㅇㅇ갤로그로 이동합니다. 10:31 1141 15
713120 정보/ Deepseek가 알려준 길을 따라간 MS [9] ㅇㅇ(121.178) 10:29 730 9
713119 일반 하아 시발 노동절에도 출근하니까 자2살 마렵네 [5] ㅇㅇ(211.63) 10:28 223 1
713118 일반 gpt로 처음으로 사주봤는데 이상하게나옴 [3] ㅇㅇ(61.33) 10:28 108 0
713117 일반 인간의 지능이 점점 낮아지는 것 같은데 [8] 특이점은온다갤로그로 이동합니다. 10:28 293 1
713116 일반 오픈AI 내부에 O5 프로토타입 있다 vs 없다 [7] 일본녀갤로그로 이동합니다. 10:24 268 0
713115 일반 구글은 지금 할당량 줄이고 싶어도 못줄이지 [3] ㅇㅇ(115.139) 10:23 258 1
713114 일반 . [4] Vaph갤로그로 이동합니다. 10:23 224 0
713112 일반 내가 여기서 이러는 이유 [1] ㅇㅇ(220.123) 10:16 156 0
713111 일반 Phi-4 reasoning 점수는 미쳤는디 [6] ㅇㅇ(121.178) 10:14 447 6
713110 일반 GPT 한테 4컷만화 보여줬더니, 반격편을 써주네 ㅋ [3] 무한탐구(218.234) 10:13 429 6
713109 일반 하아 딥러닝 강좌를 안 줄려나 보군 [2] ㅇㅇ(14.50) 10:11 164 0
713108 일반 구글이 뭐 갑자기 2년휴가 모드처럼 대가리에 총맞지 않고서는 [3] ㅇㅇ(175.199) 10:10 254 0
713107 일반 LLM은 부자만의 전유물 안된다 [1] chatgpt4o갤로그로 이동합니다. 10:08 132 0
713105 일반 제미니 울트라 모델이 아니라 요금제야? [4] ㅇㅇ(1.218) 10:06 305 0
713104 일반 노동 해방이건 전유물이건 상관 없는데 [5] ㅇㅇ(14.50) 10:05 112 0
713103 정보/ 제미나이 울트라 일부 사용자에게 알림 노출 [5] 갉달비갤로그로 이동합니다. 10:01 636 8
713102 일반 새로운 요금제 나오든말든 알빠노임 ㅇㅇ(118.216) 10:00 95 0
713101 일반 중학교 수학도 모르고 파이썬도 못 다루는데 볼만한 딥러닝 강좌 좀 [14] ㅇㅇ(59.26) 09:59 237 0
713100 일반 GPT, 클로드, 잼미니 써본 후기 [2] ㅇㅇ(211.197) 09:58 192 1
713097 일반 어쨌든 인간이 노동할 일은 사라질것 [3] 애웅스갤로그로 이동합니다. 09:51 159 0
713096 정보/ 아마존, 역대 최고 성능 AI 모델 '노바 프리미어' 출시 ㅇㅇ(NEWS)갤로그로 이동합니다. 09:51 391 6
713095 정보/ Phi-4 추론 기술 보고서 [7] 특술람갤로그로 이동합니다. 09:50 453 13
713094 일반 내가 뭘 잘못한걸까 [3] ㅇㅇ(222.109) 09:37 190 0
713092 일반 정보(채팅내역부터 모든 것)를 제공하면 AGI 앞당긴다 했을 때 [4] ㅇㅇ(123.141) 09:35 185 0
뉴스 ‘50세’ 김영철, 드디어 장가가나…‘사실혼 이력’ 소개팅女 “따로 만나기로” 디시트렌드 10:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2