디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가

ㅇㅇ(182.230) 2024.04.08 23:49:36
조회 1648 추천 18 댓글 8
														
https://www.aitimes.com/news/articleView.html?idxno=158632

 



7ce88870b68007f739ef80ed42ee706a4a8ad6f309b7a826ceccdb96f374c5172fe0



생성 인공지능(AI) 개발 경쟁이 치열해지는 가운데 오픈AI, 구글, 메타 등 미국 빅테크 기업들이 AI 학습용 데이터를 불법인 줄 알면서도 마구잡이로 수집한 것으로 드러났다. AI 학습용 데이터가 고갈될 위기에 처하자, 빅테크들이 데이터 확보를 위해 소송도 불사하고 있다는 지적이다.

뉴욕타임스(NYT)는 6일(현지시간) AI 개발을 선도하는 미국 빅테크 기업들이 AI 학습용 온라인 데이터를 확보하는 과정에서 기업 자체 정책이나 저작권법 등을 회피하는 방법까지 동원했다고 보도했다.

이에 따르면 오픈AI는 'GPT-4'를 개발 중이던 2021년 기존에 수집한 학습용 데이터가 고갈될 위기에 처하자, 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다.

오픈AI는 이전 세대인 'GPT-3' 학습을 위해 깃허브, 위키피디아 등 온라인 무료 오픈소스 플랫폼의 데이터 3000억여개를 수집해 사용했다.

그러나 다음 세대인 GPT-4 학습을 위해 더 큰 규모의 학습 데이터가 필요해지자 유튜브 콘텐츠 등에 손을 댔다는 것이다. 영상 속 말소리를 받아 적는 ‘위스퍼(Whisper)’라는 음성인식 프로그램까지 개발해 GPT-4 학습에 사용하기도 했다.

그 결과 지난해 공개된 GPT-4는 재활용이 금지된 유튜브 콘텐츠를 100만시간 이상 학습한 것으로 알려졌다.

NYT는 “당시 오픈AI 직원들은 이것이 위법일 수 있다는 것을 인지하고 있었지만, AI 학습을 위해서라면 정당한 작업이라고 믿었다”라고 전했다.

유튜브 영상을 AI 학습에 활용한 것은 유튜브 운영사인 구글도 마찬가지였다. 구글은 유튜브 콘텐츠뿐 아니라 구글 맵, 구글 독스 등 다른 구글 서비스 이용자들의 자료까지 AI 개발에 활용한다는 의혹을 받고 있다.

지난해 구글은 이용자 정보 활용 범위를 "구글 번역기와 같은 구글의 언어 모델을 훈련" 등으로 제한했던 기존의 개인정보 보호 규정을 수정해 여기에 "바드, 클라우드 AI와 같은 AI 상품 개발"도 포함될 수 있도록 했다.

구글 내부 사정을 잘 아는 소식통들은 구글 일부 직원들은 오픈AI가 유튜브 영상을 무단으로 사용했다는 사실을 인지했음에도 이를 막지 않았다고 주장했다. 당시 구글도 유튜브 영상을 자체 AI 개발에 사용하고 있었기 때문에, 오픈AI의 행동을 문제 삼을 경우 구글도 함께 저작권 침해로 엮여 문제가 커질 수 있다고 판단했다는 것이다.

이와 관련해 구글 대변인은 구글이 오픈AI의 행태에 대해 전혀 아는 바가 없으며 구글은 "유튜브 콘텐츠의 무단 사용 및 다운로드를 금지하고 있다”는 입장을 밝혔다.

메타 역시 페이스북과 인스타그램 게시물뿐 아니라 소설, 에세이, 뉴스기사 등 저작권이 명확한 데이터들까지 무단으로 사용한 것으로 드러났다.

NYT가 확보한 내부 자료에 따르면, 아흐마드 알달 메타 AI 담당 부사장은 임원회의에서 “자신의 팀이 이용 가능한 거의 모든 인터넷 콘텐츠를 사용했다”라고 말했다. 회의에선 인터넷에서 찾은 책, 에세이 등 작품들을 어떻게 허락받지 않고 요약했는지 언급했고, 이런 행위가 소송으로 이어진다 해도 경쟁력 있는 AI 개발을 위해선 더 많은 데이터 확보가 중요하다는 논의도 이뤄졌다.

기업들이 데이터가 생성되는 속도보다 더 빠르게 공개적으로 이용 가능한 온라인 데이터를 사용해 AI 모델을 개발하면서, 이르면 2년 내에 고품질 디지털 데이터가 고갈될 것이란 예측도 있다.

이런 가운데 오픈AI 등 일부 회사들은 데이터 고갈 문제 해결을 위해 AI가 생성한 데이터로 다시 AI를 학습시키는 합성 데이터 활용 방안도 연구 중인 것으로도 전해졌다.

합성 데이터는 사람이 아니라 AI가 생산한 텍스트, 이미지, 소프트웨어 코드를 말한다. 다시 말해 합성 데이터를 통해 AI는 스스로 생성한 데이터로 학습을 하게 된다.

하지만 합성 데이터는 모델의 성능을 갑작스럽게 하락시키는 '모델 붕괴'의 위험성도 가지고 있다는 지적이다. AI가 자체 생성한 결과로 AI 모델을 훈련하는 것은 거짓과 조작을 포함할 수 있고 시간이 가면서 기술을 오염시켜 되돌릴 수 없는 결함으로 이어질 수 있다는 설명이다.


자동등록방지

추천 비추천

18

고정닉 10

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
456804 정보/ "구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3] ㅇㅇ(182.230) 04.17 1010 23
456803 정보/ "AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5] ㅇㅇ(182.230) 04.17 1774 16
456800 정보/ MS, UAE G42에 2조 투자로 이사회 합류..."중국 완전 차단" [2] ㅇㅇ(182.230) 04.17 960 16
456776 일반 한국은 알엔디를 너무 무작정 부풀렸음 [23] ㅇㅇ(121.168) 04.17 1871 23
456768 정보/ 한국, AI 특허 수는 1위지만 작년 개발 모델 없고 인재 유출 [18] 니지카엘갤로그로 이동합니다. 04.17 1136 11
456763 정보/ 예쁜꼬마선충과 인간의 뇌 부피 간접 비교 [19] ㅇㅇ(182.230) 04.17 1977 16
456734 정보/ 뇌에 '바코드' 새겨 일시 기억 저장한다 [13] ㅇㅇ(182.230) 04.17 2595 20
456703 정보/ TransformerFAM: 피드백 주의는 작업 메모리입니다. [12] 특술람갤로그로 이동합니다. 04.17 1020 14
456679 AI창 AI야 케이크 위에 앉은 미소녀 그려줘 [17] ㅇㅇ갤로그로 이동합니다. 04.17 1833 14
456642 일반 펌) 생식기 실험을 통한 AI 인지능력 테스트 [19] agi2024갤로그로 이동합니다. 04.17 2912 27
456611 일반 개시발 근들갑 병신 원툴새기들 트위터 똥글은 그만퍼와라 [16] ㅇㅇ(14.45) 04.17 1984 49
456604 일반 념글 레데리2 클리어 근들갑 같은데 [13] ㅇㅇ(221.160) 04.16 2413 22
456599 정보/ 보스턴 다이내믹스 - 유압식 아틀라스와의 작별 [26] SGG갤로그로 이동합니다. 04.16 2291 19
456584 정보/ MetaAI 퇴사자, 새로운 회사 설립 [2] ㅇㅇ(118.235) 04.16 1818 19
456567 일반 LLM 훈련비용 7년 새 20만배 이상 증가 [14] ㅇㅇ(125.142) 04.16 1966 14
456565 정보/ 어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정 [17] ㅇㅇ(182.230) 04.16 1732 23
456561 정보/ 레카, 새로운 LMM '코어' 출시..."일부 성능서 GPT-4 능가" [8] ㅇㅇ(182.230) 04.16 1315 16
456559 정보/ 오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것 [7] ㅇㅇ(182.230) 04.16 1560 17
456558 정보/ 지난해 전 세계 파운데이션 모델 149개 출시 [7] ㅇㅇ(182.230) 04.16 941 13
456557 일반 네옴시티 완전 망한거 알고있냐? [40] 빅모드갤로그로 이동합니다. 04.16 3267 31
456554 정보/ "지금까지 리뷰한 최악의 제품"...Ai 핀 리뷰로 떠들썩 [10] ㅇㅇ(182.230) 04.16 1735 11
456553 정보/ "챗GPT로 게임 '레드 데드 리뎀션 2' 클리어 [14] ㅇㅇ(182.230) 04.16 2339 15
456476 일반 할아버지가 특이점 와봤자 다른게 없다고한다. [21] ㅇㅇ(218.233) 04.16 1124 21
456470 일반 "박사 과정에서 수십억 년이 걸렸을 일을 우리는 1년 만에 해냈습니다" [13] ㅇㅇ(221.157) 04.16 1321 13
456463 정보/ 인터넷속도 176만배 빠르게 하는 기술 개발됨 [47] ㅇㅇ(210.178) 04.16 2508 17
456461 일반 인디게임 개발자로써, GPT는 충분히 가치가 있다. [19] ㅇㅇ(116.34) 04.16 2570 24
456443 일반 머스크 스페샬 [8] ㅇㅇ(222.101) 04.16 635 11
456425 일반 3대 십새끼 어록 모음 [12/1] ㅇㅇ갤로그로 이동합니다. 04.16 2312 34
456424 정보/ 압축은 지능을 선형적으로 나타냅니다. [4] 특술람갤로그로 이동합니다. 04.16 710 23
456421 일반 너넨 살아보니 노력 할만 하더냐? [24] ㅇㅇ(59.9) 04.16 802 13
456412 일반 인류를 위해 안 까고있다 하면 돌천지랑 뭐가다르냐 [3] ㅇㅇ(106.101) 04.16 369 10
456401 일반 아가리 털드만이 마케팅하러 다닌다 (X) [3] ㅇㅇ갤로그로 이동합니다. 04.16 337 12
456394 정보/ 마이크로소프트 오픈소스 모델 Wizard LM2 공개 [10] lightvector갤로그로 이동합니다. 04.16 1516 25
456384 정보/ (오늘의 입털기)샘알트만- 당신들을 찍어누를 것 [31] ㅇㅇ(118.235) 04.16 2535 24
456370 정보/ 일본에 자리 잡은 사카나 AI "기업 관심 집중...아직 경쟁자 없어" [2] ㅇㅇ(182.230) 04.16 513 12
456363 일반 생각해보면 모든 행복의 근원은.. [6] ㅇㅇ갤로그로 이동합니다. 04.16 1706 23
456347 역노화 내 몸에 새로운 간을 키운다...간이식 대체할 림프절 간세포 이식술 [25] ㅇㅇ갤로그로 이동합니다. 04.16 1937 25
456321 일반 ㄹㅇ 나도 현.직자인데 [8] ㅇㅇ갤로그로 이동합니다. 04.15 982 14
456319 일반 오늘자 얀르쿤 트윗: 25년도까지 AGI 불가능 [12] ㅇㅇ(112.144) 04.15 886 11
456310 일반 산수문제 하나 풀고 가실게요 (gpt4 재평가) [9] mahogany갤로그로 이동합니다. 04.15 2120 21
456297 일반 라마3 곧 발표예정이라함 [9] ㅇㅇ(125.191) 04.15 2182 26
456204 정보/ 스테이블 디퓨전 만든 CEO 근황 [11] ㅇㅇ(121.132) 04.15 3356 26
456178 정보/ 오픈AI, 아시아 최초 사무소인 OpenAI Japan 설립 [28] 월코존버갤로그로 이동합니다. 04.15 2412 22
455877 정보/ 엔트로픽 CEO, ASL-4는 2025~2028 사이에 일어날 수 있다 [14] ㅇㅇ(218.52) 04.14 984 12
455701 정보/ 다트머스 연구진은 현대 AI와 치료 앱을 융합하려고 합니다. [12] ㅇㅇ갤로그로 이동합니다. 04.14 1418 15
455985 정보/ 미스트랄 8x22b성능은 오픈소스중최고 mmlu 77.3 [11] ㅇㅇ(149.88) 04.14 1490 15
456113 정보/ 2024년 가장 많이 사용되는 AI 플랫폼 20개는 [9] ㅇㅇ(182.230) 04.15 2563 21
455398 일반 페이팔ceo 시발년아 [16] ㅇㅇ(14.53) 04.13 2727 20
456112 일반 알트만 스캠이라면 영악한게 , 5~10년안에 올지도 모른다 [2] ㅇㅇ(118.129) 04.15 545 10
456111 정보/ "기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장 [4] ㅇㅇ(182.230) 04.15 1749 13
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2