디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] "많은 스타트업이 챗GPT로 생성한 데이터셋으로 챗봇 개발"

ㅇㅇ(182.230) 2024.04.18 20:26:04
조회 144 추천 3 댓글 1
														

https://www.aitimes.com/news/articleView.html?idxno=158886

 



7ce8887ebd8407f739ee86e743ee75684476a6913885829b111f36d7a4b1155acd



스타트업들이 개발한 인공지능(AI) 챗봇 중 다수는 오픈AI의 '챗GPT'가 생성한 데이터를 사용하여 만들어졌을 가능성이 높다는 분석이 나왔다. 이는 사실상의 데이터 도용으로, 업계의 공공연한 비밀로 알려졌다.


디 인포메이션은 15일(현지시간) 많은 스타트업들이 자체 모델을 훈련하거나 고도화하기 위해 오픈AI나 다른 회사의 대형언어모델(LLM)에서 생성한 데이터를 사용한다고 보도했다.


예를 들어 스타트업들은 오픈AI의 'GPT-4'를 돈을 내고 사용하면서, 많은 질문-답변 데이터를 확보한 후 자체 모델 훈련에 활용하는 식이다. 즉 '생성 데이터'로 모델 성능을 높이는 방식이다.


일반적으로는 메타나 미스트랄 AI 등의 인기 있는 오픈 소스 LLM을 기반으로, 오픈AI에서 확보한 데이터를 훈련해 자체 모델을 만들거나 고도화한다는 설명이다. 개발자들이 오픈AI를 사용해 생성한 대답을 올리는 사이트인 '셰어GPT'도 많은 회사들이 활용하는 것으로 알려졌다.


하지만 이런 방식으로 자체 모델을 구축하는 스타트업들 다수는 오픈AI 모델을 사용한 것을 감추고 있다.


다니엘 한  언슬로스AI 공동 창업자는 “기업 절반 정도가 GPT-4나 엔트로픽의 '클로드'에서 일정 부분 데이터를 생성하는 것으로 보고 있다”라고 말했다.


심지어 일부 개발자들은 이런 과정을 자동화하기 위해 '오픈파이프(OpenPipe)' 같은 서비스도 활용한다고 전했다.


물론 오픈AI와 앤트로픽, 구글과 같은 주요 AI 기업들은 기술적으로 이러한 행위를 금지하기 때문에 이러한 행위는 스타트업을 위험에 빠뜨릴 수 있다는 지적이다.


이에 대해 샘 알트만 오픈AI CEO는 지난해 한 행사에서 스타트업 창업자들에게 소규모 창업자들이 회사의 기술을 이런 방식으로 사용해도 괜찮다고 말한 바 있는 것으로 전해 졌다. 하지만 이런 문제가 성장에 걸림돌이 된다고 판단되면, 언제든 정책을 바꿀 가능성이 있다.


소규모 스타트업들만 다른 회사 데이터를 가져다 쓰는 건 아니다. 오픈AI나 메타 등도 여기에서 자유롭지 않다.


뉴욕타임스에 따르면 오픈AI는 GPT-4를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다. 


그 결과 지난해 공개된 GPT-4는 무단 사용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다. 이에 대해 오픈AI는 자체적으로 큐레이션한 고유한 데이터셋들이 있다는 해명을 내놓았다.


NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.


메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.


하지만 모든 AI 개발자가 이런 방식으로 작업하는 것은 아니라는 설명이다.


조나단 프랭클 데이터브릭스 수석 과학자은 “강력한 오픈 소스 LLM을 개발하기 위해 경쟁사의 작업에 하나도 의존하지 않았다”라고 주장했다.


앤트로픽도 “다른 모델의 출력으로 LLM을 훈련하지 않는다”라고 밝혔다.


자동등록방지

추천 비추천

3

고정닉 2

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7173 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2972] 특갤용갤로그로 이동합니다. 23.08.06 38345 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2317 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6970 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12968 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8695 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8051 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8913 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22425 33
479929 일반 공손하노 ㅋㅋㅋㅋ ㅇㅇ(14.35) 03:15 2 0
479928 일반 진짜 오노 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [2] ㅇㅇ(119.77) 03:15 25 1
479927 일반 안보이니까 사진좀 찍어두셈 ㅇㅇ(119.64) 03:15 15 0
479926 일반 이제 여기서 총격나고 알트만 죽으면 영화 한편 시작이냐? [2] ㅇㅇ(39.119) 03:14 24 0
479925 일반 다들 수고했다 [2] ㅇㅇ(125.183) 03:14 49 0
479924 일반 지구행성 주딱(진) 발표중 ㄷㄷㄷ [1] lightvector갤로그로 이동합니다. 03:14 40 0
479923 일반 알트만 입갤ㅋㅋㅋㅋㅋ MoonChild갤로그로 이동합니다. 03:14 7 0
479921 일반 손 씨발 존나 너드같노 ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 03:14 8 0
479920 일반 입갤 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(121.131) 03:14 3 0
479919 일반 god just came 싸이버펑크갤로그로 이동합니다. 03:14 23 0
479918 정보 어어... 진짜 뭐 온다!! ㅇㅇ(119.77) 03:13 30 0
479917 일반 어스 행성 황제 입갤!! ㅇㅇ(203.251) 03:13 1 0
479916 일반 발표 어디서 봐?? [1] dd(14.36) 03:13 10 0
479915 일반 이게섹스지... 하루사메갤로그로 이동합니다. 03:13 1 0
479914 일반 아니 왜 나만끝남??????? [1] ㅇㅇ(119.64) 03:13 19 0
479913 일반 게이새끼 등장ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 03:13 4 0
479912 일반 싹 다!!!!!!!!! ㅇㅇ갤로그로 이동합니다. 03:13 2 0
479911 일반 진짜 나오넹 ㅇㅇ갤로그로 이동합니다. 03:13 21 0
479910 일반 알트만 진짜 너드같이 생겼네 ㅇㅇㅇ ㅇㅇ(59.17) 03:13 6 0
479909 일반 나온다 알트만 은바다갤로그로 이동합니다. 03:13 8 0
479908 일반 섹스..... ㅇㅇ갤로그로 이동합니다. 03:13 3 0
479907 일반 신 입갤 ㅇㅇ(175.118) 03:13 2 0
479906 일반 똥꼬 입갤 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [1] ㅇㅇ(59.17) 03:13 12 0
479905 일반 오픈AI 뒷구멍 다 헐겠노 [1] ㅇㅇ갤로그로 이동합니다. 03:13 39 0
479904 일반 고래로 비유하네 ㅇㅇ(203.251) 03:12 12 0
479903 일반 넥스트 샘플 커밍 ㄷㄷㄷㄷㄷㄷㄷㄷㄷㄷ ㅇㅇ(59.17) 03:12 17 0
479902 일반 미국이 끝났는데 핑 때문에 한국은 하는 거면 ㅇㅍㅈ갤로그로 이동합니다. 03:12 24 1
479900 일반 계속 oai랑 알트만 gpt 언급하잖아 ㅇㅇ 곧 알트만은 나온다 ㅇㅇ(59.17) 03:12 26 0
479899 일반 여기서 안나오면 올해 주요행사는 이제 언제임? [4] ㅇㅇ(112.161) 03:12 32 0
479898 일반 큰거온다 ㅇㅇ(106.101) 03:12 13 0
479897 일반 와 진짜 개에반데 사티야 ㅇㅇ(119.64) 03:12 13 0
479896 일반 진짜 끝난거 맞음? ㅇㅇ(119.77) 03:11 26 0
479895 일반 아니 왜자꾸 GPT4 그래프 보여주지 진짜뭔가있나보다 ㅇㅇ(203.251) 03:11 36 1
479894 일반 알트만 4o 발표 때 안 나온 이유가 있음 [4] 빙냥이ㄱㅇㅇ갤로그로 이동합니다. 03:10 116 3
479893 일반 나 미국 사는데 끝남 [5] ㅇㅇ(175.198) 03:10 167 0
479892 일반 알트만 나오네 ㅋㅋㅋㅋ [1] ㅇㅇ(203.251) 03:10 64 0
479891 일반 샘알트만 이름 언급도르로 출연 ㅋㅋㅋㅋ ㅇㅇ(59.17) 03:09 37 0
479890 일반 알트만 언급 빙냥이ㄱㅇㅇ갤로그로 이동합니다. 03:09 29 0
479889 일반 알트만 입갤 ㅋㅋㅋㅋㅋ ㅇㅇ(211.104) 03:09 33 0
479887 일반 근데 msbuild day1붙어있는거뭐임? [2] ㅇㅇ갤로그로 이동합니다. 03:08 65 0
479886 일반 안나왔잖아 결국 ㅇㅇ(175.198) 03:08 29 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2