디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] AI 학습 데이터 시장 급속 확대..."단어에 1000개 당 1달러"

ㅇㅇ(182.230) 2024.04.07 21:21:28
조회 2117 추천 17 댓글 5
														
https://www.aitimes.com/news/articleView.html?idxno=158618

 



7ce88870b48a07f739ef80e247ee726f3d3fa8f2aa813f84837ca2cc26cac71a1b



인공지능(AI) 학습 데이터를 둘러싼 저작권 문제가 불거지며, 관련 데이터 시장의 규모가 급성장하고 있다. 텍스트의 경우 1000단어 구입 비용으로 1달러를 내고 있다는 구체적인 사례도 등장했다.

로이터는 5일(현지시간) 최근 AI 기업들이 콘텐츠 소유자들에게 수천만달러 규모의 학습 데이터 거래를 제안하는 등 관련 시장이 급속하게 커지고 있다고 보도했다.

이에 따르면 데이터 확보는 텍스트와 이미지, 동영상으로 전방위 확대되고 있다.

그 예로 2000년대 초반 7000만명의 사용자를 보유했던 세계 최고의 이미지 호스팅 사이트 '포토버킷'을 예로 들었다. 현재는 사용자가 200만명으로 줄어 들었지만, 최근 여러 기술회사가 130억장에 달하는 사진과 비디오의 사용권을 확보하기 위해 접촉 중이다.

테드 레너드 포토버킷 CEO는 사진은 5센트~1달러, 비디오는 1달러 이상의 가격으로 논의 중이며, 구매자와 원하는 이미지 유형에 따라 가격은 매우 다양하다고 말했습니다. "한 회사는 우리가 보유한 비디오보다 더 많은 양을 원한다며, 머리를 긁적이며 '그건 어디서 구하지'라고 말했다"라고 밝혔다.

이 협상에 따르면 포토버킷은 이미 수십억달러 상당의 콘텐츠를 보유한 셈이다.

로펌 클라리스 로의 에드워드 클라리스는 "지금은 스크랩할 수 없는 개인 컬렉션을 보유한 저작권 소유자를 찾는 일이 쇄도하고 있다"라며 이 경우 거래 규모는 수천만달러에 달한다고 밝혔다.

실제로 오픈AI 등이 셔터스톡이나 AP 등과 맺은 규모는 2500만~5000만달러(약 340억~680억원)이며, 규모가 점차 커지는 추세다.

이처럼 기존 콘텐츠에 대한 권리를 확보하는 동시에 영상 및 음성 샘플을 처음부터 생성하기 위해 단기 계약직 근로자 네트워크를 구축하는 전용 AI 데이터 회사 산업도 등장하고 있다.

데이터 라인서스 대행 업체인 시애틀의 디파인드AI는 구글이나 메타, 애플, 아마존, 마이크로소프트와 같은 빅테크와 거래하는 것으로 알려졌다.

대니얼 브라가 디파인드AI CEO는 일반적으로 이미지당 1~2달러, 비디오당 2~4달러, 긴 영화의 경우 시간당 100~300달러를 지불한다고 말했다. 텍스트의 시장 가격은 단어당 0.001달러, 즉 1000단어에 1달러다. 이 회사가 콘텐츠 제공업체들에 받는 수수료는 20~30% 정도다.

가장 비싼 데이터는 기술 회사가 차단할 이미지를 가려내는 AI 시스템 훈련용 데이터라고 밝혔다. 여기에는 폭력과 누드 등이 포함돼 있으며, 이 경우 가격은 몇배 이상 뛴다는 설명이다.

이 때문에 이런 이미지를 확보하기 위해 남미나 아프리카의 경찰이나 프리랜서, 의대생 등으로부터 범죄 현장, 폭력, 수술 이미지를 구하는 경우도 있는 것으로 알려졌다. 즉 개인 정보 유출 등의 문제점도 안고 있다는 분석이다.

특히 일부 AI 모델의 경우 학습 데이터를 그대로 출력하는, 이른바 '역류' 현상을 일으키는 경우도 보고됐다. 이 경우 대이터에 포함된 개인 정보는 그대로 노출된다.

또 최근에는 레딧과 구글의 계:약으로 SNS 데이터 활용에 대한 문제도 도마 위에 올랐다.

미국 연방거래위원회(FTC)는 레딧 사용자들의 동의 없이 SNS 게시물을 데이터 학습에 제공했는지 조사할 것이며, 이런 사례가 개인 정보 보호 및 지적 재산권 규정에 위배될 수 있다고 경고했다.

이처럼 저작권 문제가 강화되고 AI 학습에 필요한 데이터가 늘어나며, 가격 상승은 물론 데이터 고갈로 인한 AI 발전 중단까지 경고되는 실정이다.

이에 따라 일부 전문가들은 데이터 문제로 대형언어모델(LLM) 개발이 일부 거대 기업의 전유물이 될 것이며, 학습 데이터를 늘리는 방식만으로는 인공일반지능(AGI) 도달에 한계를 맞을 수 있다고 경고하고 있다.



자동등록방지

추천 비추천

17

고정닉 8

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
456804 정보/ "구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3] ㅇㅇ(182.230) 04.17 1009 23
456803 정보/ "AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5] ㅇㅇ(182.230) 04.17 1771 16
456800 정보/ MS, UAE G42에 2조 투자로 이사회 합류..."중국 완전 차단" [2] ㅇㅇ(182.230) 04.17 960 16
456776 일반 한국은 알엔디를 너무 무작정 부풀렸음 [23] ㅇㅇ(121.168) 04.17 1871 23
456768 정보/ 한국, AI 특허 수는 1위지만 작년 개발 모델 없고 인재 유출 [18] 니지카엘갤로그로 이동합니다. 04.17 1134 11
456763 정보/ 예쁜꼬마선충과 인간의 뇌 부피 간접 비교 [19] ㅇㅇ(182.230) 04.17 1976 16
456734 정보/ 뇌에 '바코드' 새겨 일시 기억 저장한다 [13] ㅇㅇ(182.230) 04.17 2593 20
456703 정보/ TransformerFAM: 피드백 주의는 작업 메모리입니다. [12] 특술람갤로그로 이동합니다. 04.17 1020 14
456679 AI창 AI야 케이크 위에 앉은 미소녀 그려줘 [17] ㅇㅇ갤로그로 이동합니다. 04.17 1829 14
456642 일반 펌) 생식기 실험을 통한 AI 인지능력 테스트 [19] agi2024갤로그로 이동합니다. 04.17 2912 27
456611 일반 개시발 근들갑 병신 원툴새기들 트위터 똥글은 그만퍼와라 [16] ㅇㅇ(14.45) 04.17 1984 49
456604 일반 념글 레데리2 클리어 근들갑 같은데 [13] ㅇㅇ(221.160) 04.16 2413 22
456599 정보/ 보스턴 다이내믹스 - 유압식 아틀라스와의 작별 [26] SGG갤로그로 이동합니다. 04.16 2291 19
456584 정보/ MetaAI 퇴사자, 새로운 회사 설립 [2] ㅇㅇ(118.235) 04.16 1818 19
456567 일반 LLM 훈련비용 7년 새 20만배 이상 증가 [14] ㅇㅇ(125.142) 04.16 1966 14
456565 정보/ 어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정 [17] ㅇㅇ(182.230) 04.16 1732 23
456561 정보/ 레카, 새로운 LMM '코어' 출시..."일부 성능서 GPT-4 능가" [8] ㅇㅇ(182.230) 04.16 1315 16
456559 정보/ 오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것 [7] ㅇㅇ(182.230) 04.16 1560 17
456558 정보/ 지난해 전 세계 파운데이션 모델 149개 출시 [7] ㅇㅇ(182.230) 04.16 941 13
456557 일반 네옴시티 완전 망한거 알고있냐? [40] 빅모드갤로그로 이동합니다. 04.16 3266 31
456554 정보/ "지금까지 리뷰한 최악의 제품"...Ai 핀 리뷰로 떠들썩 [10] ㅇㅇ(182.230) 04.16 1735 11
456553 정보/ "챗GPT로 게임 '레드 데드 리뎀션 2' 클리어 [14] ㅇㅇ(182.230) 04.16 2338 15
456476 일반 할아버지가 특이점 와봤자 다른게 없다고한다. [21] ㅇㅇ(218.233) 04.16 1123 21
456470 일반 "박사 과정에서 수십억 년이 걸렸을 일을 우리는 1년 만에 해냈습니다" [13] ㅇㅇ(221.157) 04.16 1321 13
456463 정보/ 인터넷속도 176만배 빠르게 하는 기술 개발됨 [47] ㅇㅇ(210.178) 04.16 2506 17
456461 일반 인디게임 개발자로써, GPT는 충분히 가치가 있다. [19] ㅇㅇ(116.34) 04.16 2568 24
456443 일반 머스크 스페샬 [8] ㅇㅇ(222.101) 04.16 635 11
456425 일반 3대 십새끼 어록 모음 [12/1] ㅇㅇ갤로그로 이동합니다. 04.16 2310 34
456424 정보/ 압축은 지능을 선형적으로 나타냅니다. [4] 특술람갤로그로 이동합니다. 04.16 709 23
456421 일반 너넨 살아보니 노력 할만 하더냐? [24] ㅇㅇ(59.9) 04.16 802 13
456412 일반 인류를 위해 안 까고있다 하면 돌천지랑 뭐가다르냐 [3] ㅇㅇ(106.101) 04.16 369 10
456401 일반 아가리 털드만이 마케팅하러 다닌다 (X) [3] ㅇㅇ갤로그로 이동합니다. 04.16 337 12
456394 정보/ 마이크로소프트 오픈소스 모델 Wizard LM2 공개 [10] lightvector갤로그로 이동합니다. 04.16 1516 25
456384 정보/ (오늘의 입털기)샘알트만- 당신들을 찍어누를 것 [31] ㅇㅇ(118.235) 04.16 2535 24
456370 정보/ 일본에 자리 잡은 사카나 AI "기업 관심 집중...아직 경쟁자 없어" [2] ㅇㅇ(182.230) 04.16 513 12
456363 일반 생각해보면 모든 행복의 근원은.. [6] ㅇㅇ갤로그로 이동합니다. 04.16 1706 23
456347 역노화 내 몸에 새로운 간을 키운다...간이식 대체할 림프절 간세포 이식술 [25] ㅇㅇ갤로그로 이동합니다. 04.16 1936 25
456321 일반 ㄹㅇ 나도 현.직자인데 [8] ㅇㅇ갤로그로 이동합니다. 04.15 982 14
456319 일반 오늘자 얀르쿤 트윗: 25년도까지 AGI 불가능 [12] ㅇㅇ(112.144) 04.15 885 11
456310 일반 산수문제 하나 풀고 가실게요 (gpt4 재평가) [9] mahogany갤로그로 이동합니다. 04.15 2119 21
456297 일반 라마3 곧 발표예정이라함 [9] ㅇㅇ(125.191) 04.15 2181 26
456204 정보/ 스테이블 디퓨전 만든 CEO 근황 [11] ㅇㅇ(121.132) 04.15 3356 26
456178 정보/ 오픈AI, 아시아 최초 사무소인 OpenAI Japan 설립 [28] 월코존버갤로그로 이동합니다. 04.15 2411 22
455877 정보/ 엔트로픽 CEO, ASL-4는 2025~2028 사이에 일어날 수 있다 [14] ㅇㅇ(218.52) 04.14 983 12
455701 정보/ 다트머스 연구진은 현대 AI와 치료 앱을 융합하려고 합니다. [12] ㅇㅇ갤로그로 이동합니다. 04.14 1418 15
455985 정보/ 미스트랄 8x22b성능은 오픈소스중최고 mmlu 77.3 [11] ㅇㅇ(149.88) 04.14 1490 15
456113 정보/ 2024년 가장 많이 사용되는 AI 플랫폼 20개는 [9] ㅇㅇ(182.230) 04.15 2563 21
455398 일반 페이팔ceo 시발년아 [16] ㅇㅇ(14.53) 04.13 2727 20
456112 일반 알트만 스캠이라면 영악한게 , 5~10년안에 올지도 모른다 [2] ㅇㅇ(118.129) 04.15 545 10
456111 정보/ "기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장 [4] ㅇㅇ(182.230) 04.15 1749 13
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2