오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] 오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가

ㅇㅇ(182.230) 2024.04.08 23:49:36

조회 1619 추천 18 댓글 8

https://www.aitimes.com/news/articleView.html?idxno=158632

오픈AI·메타·구글

생성 인공지능(AI) 개발 경쟁이 치열해지는 가운데 오픈AI, 구글, 메타 등 미국 빅테크 기업들이 AI 학습용 데이터를 불법인 줄 알면서도 마구잡이로 수집한 것으로 드러났다. AI 학습용 데이터가 고갈될 위기에 처하자, 빅테크들이 데이터 확보를 위해 소송도 불사하고 있다는 지적이다.뉴욕타임스(NYT)는 6일(현지시간) AI 개발을 선도하는 미국 빅테크 기업들이 AI 학습용 온라인 데이터를 확보하는 과정에서 기업 자체 정책이나 저작권법 등을 회피하는 방법까지 동원했다고 보도했다.이에 따르면 오픈AI는 'GPT-4'를 개발 중이던 2

www.aitimes.com

7ce88870b68007f739ef80ed42ee706a4a8ad6f309b7a826ceccdb96f374c5172fe0

생성 인공지능(AI) 개발 경쟁이 치열해지는 가운데 오픈AI, 구글, 메타 등 미국 빅테크 기업들이 AI 학습용 데이터를 불법인 줄 알면서도 마구잡이로 수집한 것으로 드러났다. AI 학습용 데이터가 고갈될 위기에 처하자, 빅테크들이 데이터 확보를 위해 소송도 불사하고 있다는 지적이다.

뉴욕타임스(NYT)는 6일(현지시간) AI 개발을 선도하는 미국 빅테크 기업들이 AI 학습용 온라인 데이터를 확보하는 과정에서 기업 자체 정책이나 저작권법 등을 회피하는 방법까지 동원했다고 보도했다.

이에 따르면 오픈AI는 'GPT-4'를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다.

오픈AI는 이전 세대인 'GPT-3' 학습을 위해 깃허브, 위키피디아 등 온라인 무료 오픈소스 플랫폼의 데이터 3000억여개를 수집해 사용했다.

그러나 다음 세대인 GPT-4 학습을 위해 더 큰 규모의 학습 데이터가 필요해지자 유튜브 콘텐츠 등에 손을 댔다는 것이다. 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다.

그 결과 지난해 공개된 GPT-4는 재활용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다.

NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.

유튜브 영상을 AI 학습에 활용한 것은 유튜브 운영사인 구글도 마찬가지였다. 구글은 유튜브 콘텐츠뿐 아니라 구글 맵, 구글 독스 등 다른 구글 서비스 이용자들의 자료까지 AI 개발에 활용한다는 의혹을 받고 있다.

지난해 구글은 이용자 정보 활용 범위를 "구글 번역기와 같은 구글의 언어 모델을 훈련" 등으로 제한했던 기존의 개인정보 보호 규정을 수정해 여기에 "바드, 클라우드 AI와 같은 AI 상품 개발"도 포함될 수 있도록 했다.

구글 내부 사정을 잘 아는 소식통들은 구글 일부 직원들은 오픈AI가 유튜브 영상을 무단으로 사용했다는 사실을 인지했음에도 이를 막지 않았다고 주장했다. 당시 구글도 유튜브 영상을 자체 AI 개발에 사용하고 있었기 때문에, 오픈AI의 행동을 문제 삼을 경우 구글도 함께 저작권 침해로 엮여 문제가 커질 수 있다고 판단했다는 것이다.

이와 관련해 구글 대변인은 구글이 오픈AI의 행태에 대해 전혀 아는 바가 없으며 구글은 "유튜브 콘텐츠의 무단 사용 및 다운로드를 금지하고 있다”는 입장을 밝혔다.

메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.

NYT가 확보한 내부 자료에 따르면, 아흐마드 알달 메타 AI 담당 부사장은 임원회의에서 “자신의 팀이 이용 가능한 거의 모든 인터넷 콘텐츠를 사용했다”라고 말했다. 회의에선 인터넷에서 찾은 책, 에세이 등 작품들을 어떻게 허락받지 않고 요약했는지 언급했고, 이런 행위가 소송으로 이어진다 해도 경쟁력 있는 AI 개발을 위해선 더 많은 데이터 확보가 중요하다는 논의도 이뤄졌다.

기업들이 데이터가 생성되는 속도보다 더 빠르게 공개적으로 이용 가능한 온라인 데이터를 사용해 AI 모델을 개발하면서, 이르면 2년 내에 고품질 디지털 데이터가 고갈될 것이란 예측도 있다.

이런 가운데 오픈AI 등 일부 회사들은 데이터 고갈 문제 해결을 위해 AI가 생성한 데이터로 다시 AI를 학습시키는 합성 데이터 활용 방안도 연구 중인 것으로도 전해졌다.

합성 데이터는 사람이 아니라 AI가 생산한 텍스트, 이미지, 소프트웨어 코드를 말한다. 다시 말해 합성 데이터를 통해 AI는 스스로 생성한 데이터로 학습을 하게 된다.

하지만 합성 데이터는 모델의 성능을 갑작스럽게 하락시키는 '모델 붕괴'의 위험성도 가지고 있다는 지적이다. AI가 자체 생성한 결과로 AI 모델을 훈련하는 것은 거짓과 조작을 포함할 수 있고 시간이 가면서 기술을 오염시켜 되돌릴 수 없는 결함으로 이어질 수 있다는 설명이다.

고정닉 10

원본 첨부파일 1

158632_170684_4741.jpg

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2858	설문	SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는?	운영자	24/05/06	-	-
457344	AI창 AI창작	수노3) 라마가 부른 노래 만들어봄 [8]	ㅇㅇ	04.19	1212	17
457310	일반	라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7]	ㅇㅇ	04.19	2104	24
457304	정보	찬양하라ㅡMeta. [4]	ㅇㅇ(123.100)	04.19	1836	28
457303	정보	라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8]	ㅇㅇ(123.100)	04.19	2359	20
457301	정보	라마2vs3 발전속도 보기.. [7]	ㅇㅇ(123.100)	04.19	1960	21
457300	일반	Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12]	모브	04.19	1361	23
457272	정보	오피셜) GPT4 API 사망 [6]	ㅇㅇ(123.100)	04.19	3155	32
457260	일반	라마3 400b와 4터보 벤치 [8]	ㅇㅇ(175.124)	04.19	1589	16
457254	일반	개념글 빨리 올려라 시발 ㅋㅋ [10]	lightvector	04.19	1847	29
457232	일반	GPT4 초 멸망ㅋㅋㅋㅋ [2]	ㅇㅇ(123.100)	04.19	2592	22
457213	정보	라마3 벤치마크 [16]	ㅇㅇ(211.59)	04.19	1977	22
457172	일반	라마3 70b [5]	특술람	04.18	1739	28
457168	일반	르쿤햄 오늘도 호감 1스택 적립 [5]	ㅇㅇ(218.158)	04.18	1356	27
457165	정보	라마3 발표 [15]	특술람	04.18	2688	34
457122	일반	국내는 솔직히 병신맞음 [4]	ㅇㅇ(118.235)	04.18	1108	18
457091	정보	MS-오픈AI, EU의 합병 조사 피할 듯..."단순 투자로 결론" [2]	ㅇㅇ(182.230)	04.18	951	17
457057	일반	[충격]세계 최초 뇌영상 기술 조작 논란 [28]	xdxd333	04.18	2832	24
456979	일반	근데 진짜 빅이슈면 이미 해외에서부터 ㄹ들갑떨긴 함 [4]	ㅇㅇ(115.139)	04.18	1014	22
456973	일반	념글 이거 존나웃기네 씨발 ㅋㅋㅋㅋㅋ [10]	ㅇㅇ	04.18	3435	31
456946	정보	삼성전자, 업계 최고 속도 LPDDR5X D램 개발 [4]	ㅇㅇ(182.230)	04.18	1873	24
456944	일반	싱글벙글 보스턴 다이나믹스 로봇 근황.gif [28]	ㅇㅇ	04.18	3042	29
456934	정보	피터 틸 "AI가 작가보다 수학 덕후들에게 '더 나쁠 것'" [18]	특술람	04.18	2840	26
456923	정보	닉보스트롬 인류미래연구소 문 닫음 [4]	특술람	04.18	1016	20
456922	정보	인텔, 세계 최대의 뉴로모픽 시스템 '할라 포인트' 구축 [9]	ㅇㅇ(182.230)	04.18	1510	28
456913	정보	새로운 아틀라스 로봇에 대해 CEO와의 Q&A [11]	ㅇㅇ	04.18	1757	23
456890	일반	얀 르쿤의 AI관련 의견에서 감안해야 하는 점은 [33]	ㅇㅇ(218.48)	04.18	1729	30
456828	일반	뉴아틀라스 떳다(링크) [43]	ㅇㅇ(121.168)	04.17	2666	30
456817	정보	Daniel Kokotajilo, OpenAI 퇴직 [6]	ㅇㅇ(125.191)	04.17	1139	20
456805	정보	생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다 [3]	ㅇㅇ(182.230)	04.17	1174	22
456804	정보	"구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3]	ㅇㅇ(182.230)	04.17	987	23
456803	정보	"AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5]	ㅇㅇ(182.230)	04.17	1710	16
456800	정보	MS, UAE G42에 2조 투자로 이사회 합류..."중국 완전 차단" [2]	ㅇㅇ(182.230)	04.17	947	16
456776	일반	한국은 알엔디를 너무 무작정 부풀렸음 [23]	ㅇㅇ(121.168)	04.17	1845	23
456768	정보	한국, AI 특허 수는 1위지만 작년 개발 모델 없고 인재 유출 [18]	니지카엘	04.17	1099	10
456763	정보	예쁜꼬마선충과 인간의 뇌 부피 간접 비교 [19]	ㅇㅇ(182.230)	04.17	1938	16
456734	정보	뇌에 '바코드' 새겨 일시 기억 저장한다 [14]	ㅇㅇ(182.230)	04.17	2568	20
456703	정보	TransformerFAM: 피드백 주의는 작업 메모리입니다. [12]	특술람	04.17	1010	14
456679	AI창 AI창작	AI야 케이크 위에 앉은 미소녀 그려줘 [17]	ㅇㅇ	04.17	1760	14
456642	일반	펌) 생식기 실험을 통한 AI 인지능력 테스트 [19]	agi2024	04.17	2884	27
456611	일반	개시발 근들갑 병신 원툴새기들 트위터 똥글은 그만퍼와라 [16]	ㅇㅇ(14.45)	04.17	1966	49
456604	일반	념글 레데리2 클리어 근들갑 같은데 [13]	ㅇㅇ(221.160)	04.16	2390	22
456599	정보	보스턴 다이내믹스 - 유압식 아틀라스와의 작별 [26]	SGG	04.16	2263	19
456584	정보	MetaAI 퇴사자, 새로운 회사 설립 [2]	ㅇㅇ(118.235)	04.16	1804	19
456567	일반	LLM 훈련비용 7년 새 20만배 이상 증가 [14]	ㅇㅇ(125.142)	04.16	1958	14
456565	정보	어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정 [17]	ㅇㅇ(182.230)	04.16	1700	23
456561	정보	레카, 새로운 LMM '코어' 출시..."일부 성능서 GPT-4 능가" [8]	ㅇㅇ(182.230)	04.16	1286	16
456559	정보	오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것 [7]	ㅇㅇ(182.230)	04.16	1542	17
456558	정보	지난해 전 세계 파운데이션 모델 149개 출시 [7]	ㅇㅇ(182.230)	04.16	933	13
456557	일반	네옴시티 완전 망한거 알고있냐? [40]	빅모드	04.16	3204	31
456554	정보	"지금까지 리뷰한 최악의 제품"...Ai 핀 리뷰로 떠들썩 [10]	ㅇㅇ(182.230)	04.16	1716	11