"많은 스타트업이 챗GPT로 생성한 데이터셋으로 챗봇 개발"

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] "많은 스타트업이 챗GPT로 생성한 데이터셋으로 챗봇 개발"

ㅇㅇ(182.230) 2024.04.18 20:26:04

조회 133 추천 3 댓글 1

https://www.aitimes.com/news/articleView.html?idxno=158886

AI타임스

스타트업들이 개발한 인공지능(AI) 챗봇 중 다수는 오픈AI의 '챗GPT'가 생성한 데이터를 사용하여 만들어졌을 가능성이 높다는 분석이 나왔다. 이는 사실상의 데이터 도용으로, 업계의 공공연한 비밀로 알려졌다.디 인포메이션은 15일(현지시간) 많은 스타트업들이 자체 모델을 훈련하거나 고도화하기 위해 오픈AI나 다른 회사의 대형언어모델(LLM)에서 생성한 데이터를 사용한다고 보도했다.예를 들어 스타트업들은 오픈AI의 'GPT-4'를 돈을 내고 사용하면서, 많은 질문-답변 데이터를 확보한 후 자체 모델 훈련에 활용하는 식이다. 즉 '생

www.aitimes.com

7ce8887ebd8407f739ee86e743ee75684476a6913885829b111f36d7a4b1155acd

스타트업들이 개발한 인공지능(AI) 챗봇 중 다수는 오픈AI의 '챗GPT'가 생성한 데이터를 사용하여 만들어졌을 가능성이 높다는 분석이 나왔다. 이는 사실상의 데이터 도용으로, 업계의 공공연한 비밀로 알려졌다.

디 인포메이션은 15일(현지시간) 많은 스타트업들이 자체 모델을 훈련하거나 고도화하기 위해 오픈AI나 다른 회사의 대형언어모델(LLM)에서 생성한 데이터를 사용한다고 보도했다.

예를 들어 스타트업들은 오픈AI의 'GPT-4'를 돈을 내고 사용하면서, 많은 질문-답변 데이터를 확보한 후 자체 모델 훈련에 활용하는 식이다. 즉 '생성 데이터'로 모델 성능을 높이는 방식이다.

일반적으로는 메타나 미스트랄 AI 등의 인기 있는 오픈 소스 LLM을 기반으로, 오픈AI에서 확보한 데이터를 훈련해 자체 모델을 만들거나 고도화한다는 설명이다. 개발자들이 오픈AI를 사용해 생성한 대답을 올리는 사이트인 '셰어GPT'도 많은 회사들이 활용하는 것으로 알려졌다.

하지만 이런 방식으로 자체 모델을 구축하는 스타트업들 다수는 오픈AI 모델을 사용한 것을 감추고 있다.

다니엘 한 언슬로스AI 공동 창업자는 “기업 절반 정도가 GPT-4나 엔트로픽의 '클로드'에서 일정 부분 데이터를 생성하는 것으로 보고 있다”라고 말했다.

심지어 일부 개발자들은 이런 과정을 자동화하기 위해 '오픈파이프(OpenPipe)' 같은 서비스도 활용한다고 전했다.

물론 오픈AI와 앤트로픽, 구글과 같은 주요 AI 기업들은 기술적으로 이러한 행위를 금지하기 때문에 이러한 행위는 스타트업을 위험에 빠뜨릴 수 있다는 지적이다.

이에 대해 샘 알트만 오픈AI CEO는 지난해 한 행사에서 스타트업 창업자들에게 소규모 창업자들이 회사의 기술을 이런 방식으로 사용해도 괜찮다고 말한 바 있는 것으로 전해 졌다. 하지만 이런 문제가 성장에 걸림돌이 된다고 판단되면, 언제든 정책을 바꿀 가능성이 있다.

소규모 스타트업들만 다른 회사 데이터를 가져다 쓰는 건 아니다. 오픈AI나 메타 등도 여기에서 자유롭지 않다.

뉴욕타임스에 따르면 오픈AI는 GPT-4를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다.

그 결과 지난해 공개된 GPT-4는 무단 사용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다. 이에 대해 오픈AI는 자체적으로 큐레이션한 고유한 데이터셋들이 있다는 해명을 내놓았다.

NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.

메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.

하지만 모든 AI 개발자가 이런 방식으로 작업하는 것은 아니라는 설명이다.

조나단 프랭클 데이터브릭스 수석 과학자은 “강력한 오픈 소스 LLM을 개발하기 위해 경쟁사의 작업에 하나도 의존하지 않았다”라고 주장했다.

앤트로픽도 “다른 모델의 출력으로 LLM을 훈련하지 않는다”라고 밝혔다.

고정닉 2

원본 첨부파일 1

158886_171025_1517.jpg

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2856	설문	주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는?	운영자	24/04/29	-	-
461370	뉴스	생성형 AI 허용한 스팀, 활용 게임 1,000개 돌파	*게임메카*	24.04.30	35	0
242613	공지	특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2808]	*특갤용*	23.08.06	36258	41
433260	공지	웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1]	*부패하는유전자!!!*	24.03.06	1617	2
363220	공지	선형글 삭제 기준 [6]	*특갤용*	23.10.14	6150	24
412470	공지	레이 커즈와일 신간 6월 25일 발매 [15]	모브	24.01.24	4953	28
375493	공지	필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [39]	ㅇㅇ(182.230)	23.11.11	11806	120
373402	공지	직업 비하, 조롱 글 30일 차단됩니다. [50]	*특갤용*	23.11.07	7946	79
385147	공지	구글의 AGI 분류 체계 [15]	ㅇㅇ	23.11.22	6997	30
332612	공지	음모론 삭제 기준을 안내드립니다. [23]	*특갤용*	23.08.25	8073	29
259237	공지	특갤 용어 모음집 [6]	*특갤용*	23.08.09	21112	33
461636	일반	역노화 거부감있고 인구폭증 우려하는 사람 특징.	ㅇㅇ	06:41	15	0
461635	일반	재추론이 왜 사기냐면	ㅇㅇ	06:25	30	0
461634	일반	AI 성능 ㅈ되게 올릴 방법 찾았다	ㅇㅇ	06:21	32	0
461633	일반	먹고살 생존 문제라	ㅇㅇ(117.111)	06:18	15	0
461632	일반	뭐지 뤼튼 이번엔 검열 다시 풀렸나	ㅇㅇ(180.230)	06:00	32	0
461631	일반	학벌로 꿀빠는 직업은 없어질라면 국민 정신 개조부터 해야함 [2]	ㄴㅇㅁㅇㅁㄴ(121.178)	05:19	71	0
461630	일반	AI가 늦는 이유	ㅇㅇ(76.38)	05:19	57	0
461629	일반	요즘 분위기 많이 가라앉았네 [1]	ㅇㅇ(58.77)	05:12	112	0
461628	일반	돌아가는 꼬라지 보니까 oai는	ㅇㅇ(118.235)	04:56	78	1
461627	일반	가정로봇 언제 나와	ㅇㅇ(59.26)	04:36	27	0
461626	일반	ai거품이면 안되는데 ㅇㅅㅇ... [1]	초코냥	04:17	157	0
461625	일반	gpt4 요새 사용자 알고리즘 타냐?	케이프타운의무법자	04:15	41	0
461624	토의	무슨직업 대체가 더 빠를까 [3]	테이리	04:10	100	1
461623	일반	역시 4시에 아무일도 안일어났네	ㅇㅇ(182.211)	04:03	43	0
461622	일반	존버878일차	alphaca	03:58	31	0
461621	일반	ai 거품론 슬슬 고개들고있네 [4]	거더라	03:49	289	3
461620	일반	사실 지금까지 사람들은 자본의 불평등만 이야기했지만 [1]	ㅇㅇ(1.229)	03:35	104	0
461619	일반	머야 gpt2가 진짜 다음 버전인가보네 [5]	ㅇㅇ(115.138)	03:28	351	0
461618	일반	특갤이 해냈다! gpt2 조기 종료 ㅋㅋㅋ [3]	ㅇㅇ(119.56)	03:19	391	1
461617	일반	역노화까지만 나와도 소원이 없겠음.	ㅇㅇ(1.239)	03:19	40	0
461616	일반	챗아레나 reka-flash 이 새끼 뭐임? 왤캐 좋냐 [2]	ㅇㅇ(119.56)	03:10	113	1
461615	일반	astribot 얘기는 왜안함?	ㅇㅇ(1.236)	03:09	60	0
461614	일반	선형의 승리인 거 같으면 개추ㅋㅋㅋ [1]	ㅇㅇ(103.249)	02:58	235	10
461613	일반	알트만 트윗에서 gpt 언급할 때 항상 - 붙였음? [6]	ㅇㅇ(211.36)	02:48	209	0
461612	일반	gpt2 정체 밝히기 싫으면 아예 무시하던가 [4]	ㅇㅇ(59.4)	02:42	312	5
461611	일반	2세대면 그냥 다른 이름을 썼을 거 같은데	ㅇㅇ(116.120)	02:40	53	0
461610	일반	gpt-2가 아니라 gpt2라서 2세대 모델이라는거임? [4]	ㅇㅇ(211.36)	02:33	226	0
461609	일반	일관성은 결국 기억력 문제	ㅇㅇ	02:23	62	0
461608	일반	특이점은 온다.	ㅇㅇ(1.239)	02:22	36	0
461607	일반	지금 선택할만 한 방식이	ㅇㅇ(59.13)	02:21	58	0
461606	일반	내가 말한대로 개발되고 있긴 하냐? [1]	ㅇㅇ	02:16	107	0
461605	일반	이름가지고 장난치는거 보니까 슬슬 끝물같으면 개추ㅋㅋㅋ	ㅇㅇ(211.197)	02:09	444	16
461604	일반	오늘 도메인마저 결국 아무것도 없었나	ㅇㅇ	02:09	66	0
461603	일반	특이점 언제와..? [9]	KURO	02:05	191	1
461602	일반	결국은 하드웨어 문제 처리한 groq인가	ㅇㅇ(59.13)	02:02	75	0
461601	일반	클로드 넘 개씹멍청해져서 개짜증 [2]	초존도초	01:52	135	0
461600	일반	크리스퍼 가위는 아직 조심해서 써야 할 것 같긴하당.. [13]	ㅇㅇ	01:40	284	1
461599	일반	CHARACTER AI이거 [1]	ㅇㅇ(59.13)	01:39	90	0
461598	일반	파인튜닝이나 프롬프트 엔지니어링이 의미가 없어지는 건가? [4]	ㅇㅇ(59.13)	01:30	147	0
461596	일반	역노화 이론적으로는 가능한거긴함? [8]	ㅇㅇ(112.159)	01:27	231	0