디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] "많은 스타트업이 챗GPT로 생성한 데이터셋으로 챗봇 개발"

ㅇㅇ(182.230) 2024.04.18 20:26:04
조회 145 추천 3 댓글 1
														

https://www.aitimes.com/news/articleView.html?idxno=158886

 



7ce8887ebd8407f739ee86e743ee75684476a6913885829b111f36d7a4b1155acd



스타트업들이 개발한 인공지능(AI) 챗봇 중 다수는 오픈AI의 '챗GPT'가 생성한 데이터를 사용하여 만들어졌을 가능성이 높다는 분석이 나왔다. 이는 사실상의 데이터 도용으로, 업계의 공공연한 비밀로 알려졌다.


디 인포메이션은 15일(현지시간) 많은 스타트업들이 자체 모델을 훈련하거나 고도화하기 위해 오픈AI나 다른 회사의 대형언어모델(LLM)에서 생성한 데이터를 사용한다고 보도했다.


예를 들어 스타트업들은 오픈AI의 'GPT-4'를 돈을 내고 사용하면서, 많은 질문-답변 데이터를 확보한 후 자체 모델 훈련에 활용하는 식이다. 즉 '생성 데이터'로 모델 성능을 높이는 방식이다.


일반적으로는 메타나 미스트랄 AI 등의 인기 있는 오픈 소스 LLM을 기반으로, 오픈AI에서 확보한 데이터를 훈련해 자체 모델을 만들거나 고도화한다는 설명이다. 개발자들이 오픈AI를 사용해 생성한 대답을 올리는 사이트인 '셰어GPT'도 많은 회사들이 활용하는 것으로 알려졌다.


하지만 이런 방식으로 자체 모델을 구축하는 스타트업들 다수는 오픈AI 모델을 사용한 것을 감추고 있다.


다니엘 한  언슬로스AI 공동 창업자는 “기업 절반 정도가 GPT-4나 엔트로픽의 '클로드'에서 일정 부분 데이터를 생성하는 것으로 보고 있다”라고 말했다.


심지어 일부 개발자들은 이런 과정을 자동화하기 위해 '오픈파이프(OpenPipe)' 같은 서비스도 활용한다고 전했다.


물론 오픈AI와 앤트로픽, 구글과 같은 주요 AI 기업들은 기술적으로 이러한 행위를 금지하기 때문에 이러한 행위는 스타트업을 위험에 빠뜨릴 수 있다는 지적이다.


이에 대해 샘 알트만 오픈AI CEO는 지난해 한 행사에서 스타트업 창업자들에게 소규모 창업자들이 회사의 기술을 이런 방식으로 사용해도 괜찮다고 말한 바 있는 것으로 전해 졌다. 하지만 이런 문제가 성장에 걸림돌이 된다고 판단되면, 언제든 정책을 바꿀 가능성이 있다.


소규모 스타트업들만 다른 회사 데이터를 가져다 쓰는 건 아니다. 오픈AI나 메타 등도 여기에서 자유롭지 않다.


뉴욕타임스에 따르면 오픈AI는 GPT-4를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다. 


그 결과 지난해 공개된 GPT-4는 무단 사용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다. 이에 대해 오픈AI는 자체적으로 큐레이션한 고유한 데이터셋들이 있다는 해명을 내놓았다.


NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.


메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.


하지만 모든 AI 개발자가 이런 방식으로 작업하는 것은 아니라는 설명이다.


조나단 프랭클 데이터브릭스 수석 과학자은 “강력한 오픈 소스 LLM을 개발하기 위해 경쟁사의 작업에 하나도 의존하지 않았다”라고 주장했다.


앤트로픽도 “다른 모델의 출력으로 LLM을 훈련하지 않는다”라고 밝혔다.


자동등록방지

추천 비추천

3

고정닉 2

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
472297 일반 인공지능 4o가 쓴 소설 봐라 미쳤다 진짜;; [2] ㅇㅇ(59.18) 05.14 196 0
472296 일반 Gpt-4o 대단한거 맞음? [3] ㅇㅇ(221.157) 05.14 173 0
472295 일반 오픈AI가 일부러 구글한테 매너 한 거라면? [1] ㅇㅇ(120.142) 05.14 104 0
472294 일반 (공감)왜 뉴스에는 ai짤 이딴거 맨날쓰냐???? ㅇㅇ갤로그로 이동합니다. 05.14 144 2
472293 일반 gpt40 가 이미지의 문자를 인식을 못해 [2] ㅇㅇ(1.235) 05.14 113 0
472292 일반 난 모르는거 부끄러워할 필요 없다고 생각함 비닌갤로그로 이동합니다. 05.14 71 0
472291 일반 축구로 따지면 이미 5:0으로 이기고 있는 상황이네 ㅇㅇ(59.18) 05.14 118 0
472290 일반 Gpt4O 싸니까 api로 쓰면 딱이겠네 ㅇㅇ갤로그로 이동합니다. 05.14 58 0
472289 일반 작년에 발표한 내용을 또 하려는 구글이 병신 아니냐? ㅇㅇ갤로그로 이동합니다. 05.14 35 0
472288 일반 제미니 1.5울트라는 벤치만 좋고 체감 성능은 4o랑 도찐개찐일 거 같음 ㅇㅇ(120.142) 05.14 80 0
472287 일반 오늘 제미니 발표하는 거 클로드는 넘냐? [1] ㅇㅇ(112.158) 05.14 100 0
472284 일반 요약 : 속도 빨라짐, 성능은 고만고만하거나 클로드한테 따임 [2] ㅇㅇ(119.199) 05.14 151 0
472283 일반 어쨌거나 오늘 구글 1.5 ultra가 4 turbo는 후두려 패겠네 [1] ㅇㅇ갤로그로 이동합니다. 05.14 77 0
472282 일반 이건 쫌 오픈ai가 많이 잘못한거 같은데? [12] ㅇㅇ(117.20) 05.14 424 4
472281 일반 와 옴니 존나 빠르네 씨발 ㅇㅇ(118.33) 05.14 40 0
472280 일반 선형충 << 어김없이 개병신 새끼들 ㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 47 0
472278 일반 추론 확실히 향상 아닌가? ㅇㅇ(58.29) 05.14 25 0
472277 일반 내일 제미니 mmlu 95는 달성하겠지? ㅇㅇ(120.142) 05.14 22 0
472276 일반 벤치보니까 여전히 어려운 작업에선 개병신찍기충이고 ㅇㅇ(121.130) 05.14 43 0
472274 일반 챗봇아레나에 4o 떴는데 ㅇㅇ(106.245) 05.14 129 0
472273 일반 검열 먹이면 다 gpt4 수준 되는거 보니까 [2] ㅇㅇ갤로그로 이동합니다. 05.14 150 0
472272 일반 현재 오에 발표 해외 반응은 ㅆㅅㅌㅊ임 ㅇㅇ(118.235) 05.14 114 0
472271 일반 요런 건 가능성 있어? ㅇㅇ갤로그로 이동합니다. 05.14 30 0
472270 일반 진짜 위치찾기 쩌는걸 [1] 엠창인생막장의끝갤로그로 이동합니다. 05.14 98 0
472269 일반 "GPT-4o는 현존 최고 모델이다. 하지만..." [2] ㅇㅇ(118.37) 05.14 304 3
472268 일반 사실 GPT-4o는 GPT-4 대비 이렇게 정리할 수 있을 듯. elryiop갤로그로 이동합니다. 05.14 106 2
471494 정보 처음으로 mathvista에서 인간을 능가한 gpt4o [24] 특술람갤로그로 이동합니다. 05.14 4041 32
472057 정보 OAI 이벤트 초대남이 우연히 들은 말 [10] ㅇㅇ(119.77) 05.14 580 15
472267 일반 gpt-4o 발표된지 하루도 안지났는데 성능 구려짐 [1] ㅇㅇ(110.145) 05.14 114 0
472266 일반 4o 다른건 모르겠고 빨라서 좋네 [3] 엠창인생막장의끝갤로그로 이동합니다. 05.14 134 0
472265 일반 그니까 OAI가 너무 근들갑 떨었어 ㅇㅇ(163.152) 05.14 57 1
472264 일반 챗GPT 앱 음성은 한국에서 15년 산 미국인처럼 말해서 별로임 [1] ㅇㅇ(120.142) 05.14 98 0
472263 정보 AI가 인간을 해킹한다…더 교묘하고 강력한 ‘다크패턴’ ㅇㅇ갤로그로 이동합니다. 05.14 103 1
472261 AI창 와 GPT4-Omni 성능 개쩐다..테트리스 한방에만듬ㄷ [3] ㅇㅇ(121.124) 05.14 340 6
472260 일반 구글이 oai에게 유튜브 자료 쓰지말라고 못하는 이유 ㅇㅇ갤로그로 이동합니다. 05.14 104 1
472259 일반 병신트만 제대로 된거 내기전까지 계속 쳐맞아야겠다 ㅋ ㅇㅇ(175.203) 05.14 23 0
472258 일반 항상 최신 모델에 열광하는 애들이 승리자.지 ㅇㅇ갤로그로 이동합니다. 05.14 47 0
472256 일반 혹시 oai에 일리야가 없는거 아닐까 [1] ㅇㅇ갤로그로 이동합니다. 05.14 70 0
472255 일반 롤대남갈드컵좌 존나게 추하긴 하노 ㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 46 0
472253 일반 사실 GPT-4o가 단순 텍스트 인식은 [2] elryiop갤로그로 이동합니다. 05.14 159 0
472252 일반 4o는 애초에 영상 대화용 모델 아님? [1] ㅇㅇ갤로그로 이동합니다. 05.14 54 0
472251 일반 Gpt4O 갑을병정 문제 풀이 ㅇㅇ갤로그로 이동합니다. 05.14 107 0
472250 일반 OAI빠가 완승인 이유 ㅇㅇ갤로그로 이동합니다. 05.14 67 2
472249 일반 샘알트만은 기술개발이아니라 기업경쟁에 너무 치중함 [1] ㅇㅇ(125.134) 05.14 80 1
472248 일반 마케팅을 개 좆으로 보노 [1] ㅇㅇ(211.234) 05.14 86 0
472247 일반 인터넷에서 아무런 책임없이 글싸는건데 왜저럼 ㅋ ㅇㅇ(175.203) 05.14 34 0
472243 일반 나노 led -> Oled로 바뀌었다!! Singnice갤로그로 이동합니다. 05.14 81 0
472241 일반 지금 다른거 할게 아니라 양자기술에 집중해야된다 [1] ㅇㅇ(125.134) 05.14 50 0
472240 일반 보이스 인터셉트 안된다고 아가리 털던 새끼들 얼굴 좀 보자 [2] ㅇㅇ갤로그로 이동합니다. 05.14 64 0
472239 일반 오히려 니들이 패봤자 뭘 할 수 있는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [1] ㅇㅇ갤로그로 이동합니다. 05.14 53 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2