디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] "많은 스타트업이 챗GPT로 생성한 데이터셋으로 챗봇 개발"

ㅇㅇ(182.230) 2024.04.18 20:26:04
조회 133 추천 3 댓글 1
														

https://www.aitimes.com/news/articleView.html?idxno=158886

 



7ce8887ebd8407f739ee86e743ee75684476a6913885829b111f36d7a4b1155acd



스타트업들이 개발한 인공지능(AI) 챗봇 중 다수는 오픈AI의 '챗GPT'가 생성한 데이터를 사용하여 만들어졌을 가능성이 높다는 분석이 나왔다. 이는 사실상의 데이터 도용으로, 업계의 공공연한 비밀로 알려졌다.


디 인포메이션은 15일(현지시간) 많은 스타트업들이 자체 모델을 훈련하거나 고도화하기 위해 오픈AI나 다른 회사의 대형언어모델(LLM)에서 생성한 데이터를 사용한다고 보도했다.


예를 들어 스타트업들은 오픈AI의 'GPT-4'를 돈을 내고 사용하면서, 많은 질문-답변 데이터를 확보한 후 자체 모델 훈련에 활용하는 식이다. 즉 '생성 데이터'로 모델 성능을 높이는 방식이다.


일반적으로는 메타나 미스트랄 AI 등의 인기 있는 오픈 소스 LLM을 기반으로, 오픈AI에서 확보한 데이터를 훈련해 자체 모델을 만들거나 고도화한다는 설명이다. 개발자들이 오픈AI를 사용해 생성한 대답을 올리는 사이트인 '셰어GPT'도 많은 회사들이 활용하는 것으로 알려졌다.


하지만 이런 방식으로 자체 모델을 구축하는 스타트업들 다수는 오픈AI 모델을 사용한 것을 감추고 있다.


다니엘 한  언슬로스AI 공동 창업자는 “기업 절반 정도가 GPT-4나 엔트로픽의 '클로드'에서 일정 부분 데이터를 생성하는 것으로 보고 있다”라고 말했다.


심지어 일부 개발자들은 이런 과정을 자동화하기 위해 '오픈파이프(OpenPipe)' 같은 서비스도 활용한다고 전했다.


물론 오픈AI와 앤트로픽, 구글과 같은 주요 AI 기업들은 기술적으로 이러한 행위를 금지하기 때문에 이러한 행위는 스타트업을 위험에 빠뜨릴 수 있다는 지적이다.


이에 대해 샘 알트만 오픈AI CEO는 지난해 한 행사에서 스타트업 창업자들에게 소규모 창업자들이 회사의 기술을 이런 방식으로 사용해도 괜찮다고 말한 바 있는 것으로 전해 졌다. 하지만 이런 문제가 성장에 걸림돌이 된다고 판단되면, 언제든 정책을 바꿀 가능성이 있다.


소규모 스타트업들만 다른 회사 데이터를 가져다 쓰는 건 아니다. 오픈AI나 메타 등도 여기에서 자유롭지 않다.


뉴욕타임스에 따르면 오픈AI는 GPT-4를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다. 


그 결과 지난해 공개된 GPT-4는 무단 사용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다. 이에 대해 오픈AI는 자체적으로 큐레이션한 고유한 데이터셋들이 있다는 해명을 내놓았다.


NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.


메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.


하지만 모든 AI 개발자가 이런 방식으로 작업하는 것은 아니라는 설명이다.


조나단 프랭클 데이터브릭스 수석 과학자은 “강력한 오픈 소스 LLM을 개발하기 위해 경쟁사의 작업에 하나도 의존하지 않았다”라고 주장했다.


앤트로픽도 “다른 모델의 출력으로 LLM을 훈련하지 않는다”라고 밝혔다.


자동등록방지

추천 비추천

3

고정닉 2

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
461370 뉴스 생성형 AI 허용한 스팀, 활용 게임 1,000개 돌파 게임메카갤로그로 이동합니다. 24.04.30 35 0
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2808] 특갤용갤로그로 이동합니다. 23.08.06 36258 41
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 1617 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6150 24
412470 공지 레이 커즈와일 신간 6월 25일 발매 [15] 모브갤로그로 이동합니다. 24.01.24 4953 28
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [39] ㅇㅇ(182.230) 23.11.11 11806 120
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 7946 79
385147 공지 구글의 AGI 분류 체계 [15] ㅇㅇ갤로그로 이동합니다. 23.11.22 6997 30
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8073 29
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 21112 33
461636 일반 역노화 거부감있고 인구폭증 우려하는 사람 특징. ㅇㅇ갤로그로 이동합니다. 06:41 15 0
461635 일반 재추론이 왜 사기냐면 ㅇㅇ갤로그로 이동합니다. 06:25 30 0
461634 일반 AI 성능 ㅈ되게 올릴 방법 찾았다 ㅇㅇ갤로그로 이동합니다. 06:21 32 0
461633 일반 먹고살 생존 문제라 ㅇㅇ(117.111) 06:18 15 0
461632 일반 뭐지 뤼튼 이번엔 검열 다시 풀렸나 ㅇㅇ(180.230) 06:00 32 0
461631 일반 학벌로 꿀빠는 직업은 없어질라면 국민 정신 개조부터 해야함 [2] ㄴㅇㅁㅇㅁㄴ(121.178) 05:19 71 0
461630 일반 AI가 늦는 이유 ㅇㅇ(76.38) 05:19 57 0
461629 일반 요즘 분위기 많이 가라앉았네 [1] ㅇㅇ(58.77) 05:12 112 0
461628 일반 돌아가는 꼬라지 보니까 oai는 ㅇㅇ(118.235) 04:56 78 1
461627 일반 가정로봇 언제 나와 ㅇㅇ(59.26) 04:36 27 0
461626 일반 ai거품이면 안되는데 ㅇㅅㅇ... [1] 초코냥갤로그로 이동합니다. 04:17 157 0
461625 일반 gpt4 요새 사용자 알고리즘 타냐? 케이프타운의무법자갤로그로 이동합니다. 04:15 41 0
461624 토의 무슨직업 대체가 더 빠를까 [3] 테이리갤로그로 이동합니다. 04:10 100 1
461623 일반 역시 4시에 아무일도 안일어났네 ㅇㅇ(182.211) 04:03 43 0
461622 일반 존버878일차 alphaca갤로그로 이동합니다. 03:58 31 0
461621 일반 ai 거품론 슬슬 고개들고있네 [4] 거더라갤로그로 이동합니다. 03:49 289 3
461620 일반 사실 지금까지 사람들은 자본의 불평등만 이야기했지만 [1] ㅇㅇ(1.229) 03:35 104 0
461619 일반 머야 gpt2가 진짜 다음 버전인가보네 [5] ㅇㅇ(115.138) 03:28 351 0
461618 일반 특갤이 해냈다! gpt2 조기 종료 ㅋㅋㅋ [3] ㅇㅇ(119.56) 03:19 391 1
461617 일반 역노화까지만 나와도 소원이 없겠음. ㅇㅇ(1.239) 03:19 40 0
461616 일반 챗아레나 reka-flash 이 새끼 뭐임? 왤캐 좋냐 [2] ㅇㅇ(119.56) 03:10 113 1
461615 일반 astribot 얘기는 왜안함? ㅇㅇ(1.236) 03:09 60 0
461614 일반 선형의 승리인 거 같으면 개추ㅋㅋㅋ [1] ㅇㅇ(103.249) 02:58 235 10
461613 일반 알트만 트윗에서 gpt 언급할 때 항상 - 붙였음? [6] ㅇㅇ(211.36) 02:48 209 0
461612 일반 gpt2 정체 밝히기 싫으면 아예 무시하던가 [4] ㅇㅇ(59.4) 02:42 312 5
461611 일반 2세대면 그냥 다른 이름을 썼을 거 같은데 ㅇㅇ(116.120) 02:40 53 0
461610 일반 gpt-2가 아니라 gpt2라서 2세대 모델이라는거임? [4] ㅇㅇ(211.36) 02:33 226 0
461609 일반 일관성은 결국 기억력 문제 ㅇㅇ갤로그로 이동합니다. 02:23 62 0
461608 일반 특이점은 온다. ㅇㅇ(1.239) 02:22 36 0
461607 일반 지금 선택할만 한 방식이 ㅇㅇ(59.13) 02:21 58 0
461606 일반 내가 말한대로 개발되고 있긴 하냐? [1] ㅇㅇ갤로그로 이동합니다. 02:16 107 0
461605 일반 이름가지고 장난치는거 보니까 슬슬 끝물같으면 개추ㅋㅋㅋ ㅇㅇ(211.197) 02:09 444 16
461604 일반 오늘 도메인마저 결국 아무것도 없었나 ㅇㅇ갤로그로 이동합니다. 02:09 66 0
461603 일반 특이점 언제와..? [9] KURO갤로그로 이동합니다. 02:05 191 1
461602 일반 결국은 하드웨어 문제 처리한 groq인가 ㅇㅇ(59.13) 02:02 75 0
461601 일반 클로드 넘 개씹멍청해져서 개짜증 [2] 초존도초갤로그로 이동합니다. 01:52 135 0
461600 일반 크리스퍼 가위는 아직 조심해서 써야 할 것 같긴하당.. [13] ㅇㅇ갤로그로 이동합니다. 01:40 284 1
461599 일반 CHARACTER AI이거 [1] ㅇㅇ(59.13) 01:39 90 0
461598 일반 파인튜닝이나 프롬프트 엔지니어링이 의미가 없어지는 건가? [4] ㅇㅇ(59.13) 01:30 147 0
461596 일반 역노화 이론적으로는 가능한거긴함? [8] ㅇㅇ(112.159) 01:27 231 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2