디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] AI 학습 데이터 시장 급속 확대..."단어에 1000개 당 1달러"

ㅇㅇ(182.230) 2024.04.07 21:21:28
조회 2078 추천 17 댓글 5
														
https://www.aitimes.com/news/articleView.html?idxno=158618

 



7ce88870b48a07f739ef80e247ee726f3d3fa8f2aa813f84837ca2cc26cac71a1b



인공지능(AI) 학습 데이터를 둘러싼 저작권 문제가 불거지며, 관련 데이터 시장의 규모가 급성장하고 있다. 텍스트의 경우 1000단어 구입 비용으로 1달러를 내고 있다는 구체적인 사례도 등장했다.

로이터는 5일(현지시간) 최근 AI 기업들이 콘텐츠 소유자들에게 수천만달러 규모의 학습 데이터 거래를 제안하는 등 관련 시장이 급속하게 커지고 있다고 보도했다.

이에 따르면 데이터 확보는 텍스트와 이미지, 동영상으로 전방위 확대되고 있다.

그 예로 2000년대 초반 7000만명의 사용자를 보유했던 세계 최고의 이미지 호스팅 사이트 '포토버킷'을 예로 들었다. 현재는 사용자가 200만명으로 줄어 들었지만, 최근 여러 기술회사가 130억장에 달하는 사진과 비디오의 사용권을 확보하기 위해 접촉 중이다.

테드 레너드 포토버킷 CEO는 사진은 5센트~1달러, 비디오는 1달러 이상의 가격으로 논의 중이며, 구매자와 원하는 이미지 유형에 따라 가격은 매우 다양하다고 말했습니다. "한 회사는 우리가 보유한 비디오보다 더 많은 양을 원한다며, 머리를 긁적이며 '그건 어디서 구하지'라고 말했다"라고 밝혔다.

이 협상에 따르면 포토버킷은 이미 수십억달러 상당의 콘텐츠를 보유한 셈이다.

로펌 클라리스 로의 에드워드 클라리스는 "지금은 스크랩할 수 없는 개인 컬렉션을 보유한 저작권 소유자를 찾는 일이 쇄도하고 있다"라며 이 경우 거래 규모는 수천만달러에 달한다고 밝혔다.

실제로 오픈AI 등이 셔터스톡이나 AP 등과 맺은 규모는 2500만~5000만달러(약 340억~680억원)이며, 규모가 점차 커지는 추세다.

이처럼 기존 콘텐츠에 대한 권리를 확보하는 동시에 영상 및 음성 샘플을 처음부터 생성하기 위해 단기 계약직 근로자 네트워크를 구축하는 전용 AI 데이터 회사 산업도 등장하고 있다.

데이터 라인서스 대행 업체인 시애틀의 디파인드AI는 구글이나 메타, 애플, 아마존, 마이크로소프트와 같은 빅테크와 거래하는 것으로 알려졌다.

대니얼 브라가 디파인드AI CEO는 일반적으로 이미지당 1~2달러, 비디오당 2~4달러, 긴 영화의 경우 시간당 100~300달러를 지불한다고 말했다. 텍스트의 시장 가격은 단어당 0.001달러, 즉 1000단어에 1달러다. 이 회사가 콘텐츠 제공업체들에 받는 수수료는 20~30% 정도다.

가장 비싼 데이터는 기술 회사가 차단할 이미지를 가려내는 AI 시스템 훈련용 데이터라고 밝혔다. 여기에는 폭력과 누드 등이 포함돼 있으며, 이 경우 가격은 몇배 이상 뛴다는 설명이다.

이 때문에 이런 이미지를 확보하기 위해 남미나 아프리카의 경찰이나 프리랜서, 의대생 등으로부터 범죄 현장, 폭력, 수술 이미지를 구하는 경우도 있는 것으로 알려졌다. 즉 개인 정보 유출 등의 문제점도 안고 있다는 분석이다.

특히 일부 AI 모델의 경우 학습 데이터를 그대로 출력하는, 이른바 '역류' 현상을 일으키는 경우도 보고됐다. 이 경우 대이터에 포함된 개인 정보는 그대로 노출된다.

또 최근에는 레딧과 구글의 계:약으로 SNS 데이터 활용에 대한 문제도 도마 위에 올랐다.

미국 연방거래위원회(FTC)는 레딧 사용자들의 동의 없이 SNS 게시물을 데이터 학습에 제공했는지 조사할 것이며, 이런 사례가 개인 정보 보호 및 지적 재산권 규정에 위배될 수 있다고 경고했다.

이처럼 저작권 문제가 강화되고 AI 학습에 필요한 데이터가 늘어나며, 가격 상승은 물론 데이터 고갈로 인한 AI 발전 중단까지 경고되는 실정이다.

이에 따라 일부 전문가들은 데이터 문제로 대형언어모델(LLM) 개발이 일부 거대 기업의 전유물이 될 것이며, 학습 데이터를 늘리는 방식만으로는 인공일반지능(AGI) 도달에 한계를 맞을 수 있다고 경고하고 있다.



자동등록방지

추천 비추천

17

고정닉 8

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
457748 일반 ???: ㅋㅋ 고작 이딴걸로 좋아하네 [13] agi2024갤로그로 이동합니다. 04.19 3105 23
457691 일반 이미 로펌에서 GPT-4 로 변론서 작성중이라는데 ㅋㅋㅋㅋㅋ [13] ㅇㅇ(124.49) 04.19 2663 24
457690 일반 역시 르쿤이형이냐 [12] ㅇㅇ(59.11) 04.19 1926 56
457641 정보 (오피셜) 라마3 곧 추가될 기능들 [15] ㅇㅇ(123.100) 04.19 2596 27
457620 일반 405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8] ㅇㅇ(123.100) 04.19 2114 20
457615 일반 라마3 한국어로 쓰고 실망 ㄴㄴ [4] ㅇㅇ(123.100) 04.19 2160 19
457613 일반 챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ(110.145) 04.19 2120 21
457608 정보 라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4] ㅇㅇ(123.100) 04.19 1207 19
457522 정보 MS '대화하는 얼굴' VASA-1 작동 영상 [6] ㅇㅇ갤로그로 이동합니다. 04.19 1176 22
457509 정보 오늘 있던 Oai 강연 + 앞로 있을 3개 [12] ㅁㄴㅇㄹ갤로그로 이동합니다. 04.19 1835 23
457496 일반 라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14] ㅇㅇ(110.145) 04.19 1637 19
457481 정보 chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17] ㅇㅇ갤로그로 이동합니다. 04.19 2220 24
457455 일반 라마3는 충분히 기뻐할만한 일 아님? [15] ㅇㅇ(211.44) 04.19 2313 46
457454 일반 라마 매력봐라 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [14] 아디라스갤로그로 이동합니다. 04.19 3359 33
457432 일반 라마3 아이폰에서 구동 성공 [15] rtOS갤로그로 이동합니다. 04.19 2517 23
457416 일반 라마4 떡밥 [3] 특술람갤로그로 이동합니다. 04.19 1019 22
457400 정보 스탠포드 피셜)) 분야별 ai발전 속도 인덱스 [19] lightvector갤로그로 이동합니다. 04.19 2547 27
457399 정보 메타 실시간 이미지 생성 발표 [9] 특술람갤로그로 이동합니다. 04.19 2695 30
457358 일반 라마3 동양인 혐오하네 ㅇㅇ [19] ㅇㅇ갤로그로 이동합니다. 04.19 3126 33
457357 일반 솔직히 라마 좃도 안기쁘면 개추 ㅋㅋ [20] ㅇㅇ(210.205) 04.19 2789 30
457344 AI창 수노3) 라마가 부른 노래 만들어봄 [8] ㅇㅇ갤로그로 이동합니다. 04.19 1208 17
457310 일반 라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7] ㅇㅇ갤로그로 이동합니다. 04.19 2089 24
457304 정보 찬양하라ㅡMeta. [4] ㅇㅇ(123.100) 04.19 1833 28
457303 정보 라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8] ㅇㅇ(123.100) 04.19 2351 20
457301 정보 라마2vs3 발전속도 보기.. [7] ㅇㅇ(123.100) 04.19 1956 21
457300 일반 Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12] 모브갤로그로 이동합니다. 04.19 1352 23
457272 정보 오피셜) GPT4 API 사망 [6] ㅇㅇ(123.100) 04.19 3145 32
457260 일반 라마3 400b와 4터보 벤치 [8] ㅇㅇ(175.124) 04.19 1584 16
457254 일반 개념글 빨리 올려라 시발 ㅋㅋ [10] lightvector갤로그로 이동합니다. 04.19 1843 29
457232 일반 GPT4 초 멸망ㅋㅋㅋㅋ [2] ㅇㅇ(123.100) 04.19 2578 22
457213 정보 라마3 벤치마크 [16] ㅇㅇ(211.59) 04.19 1971 22
457172 일반 라마3 70b [5] 특술람갤로그로 이동합니다. 04.18 1731 28
457168 일반 르쿤햄 오늘도 호감 1스택 적립 [5] ㅇㅇ(218.158) 04.18 1353 27
457165 정보 라마3 발표 [15] 특술람갤로그로 이동합니다. 04.18 2678 34
457122 일반 국내는 솔직히 병신맞음 [4] ㅇㅇ(118.235) 04.18 1096 17
457091 정보 MS-오픈AI, EU의 합병 조사 피할 듯..."단순 투자로 결론" [2] ㅇㅇ(182.230) 04.18 949 17
457057 일반 [충격]세계 최초 뇌영상 기술 조작 논란 [28] xdxd333갤로그로 이동합니다. 04.18 2823 24
456979 일반 근데 진짜 빅이슈면 이미 해외에서부터 ㄹ들갑떨긴 함 [4] ㅇㅇ(115.139) 04.18 1008 22
456973 일반 념글 이거 존나웃기네 씨발 ㅋㅋㅋㅋㅋ [10] ㅇㅇ갤로그로 이동합니다. 04.18 3423 31
456946 정보 삼성전자, 업계 최고 속도 LPDDR5X D램 개발 [4] ㅇㅇ(182.230) 04.18 1868 24
456944 일반 싱글벙글 보스턴 다이나믹스 로봇 근황.gif [30] ㅇㅇ­갤로그로 이동합니다. 04.18 3035 29
456934 정보 피터 틸 "AI가 작가보다 수학 덕후들에게 '더 나쁠 것'" [18] 특술람갤로그로 이동합니다. 04.18 2816 26
456923 정보 닉보스트롬 인류미래연구소 문 닫음 [4] 특술람갤로그로 이동합니다. 04.18 1009 20
456922 정보 인텔, 세계 최대의 뉴로모픽 시스템 '할라 포인트' 구축 [9] ㅇㅇ(182.230) 04.18 1505 28
456913 정보 새로운 아틀라스 로봇에 대해 CEO와의 Q&A [11] ㅇㅇ갤로그로 이동합니다. 04.18 1747 23
456890 일반 얀 르쿤의 AI관련 의견에서 감안해야 하는 점은 [33] ㅇㅇ(218.48) 04.18 1721 30
456828 일반 뉴아틀라스 떳다(링크) [43] ㅇㅇ(121.168) 04.17 2664 30
456817 정보 Daniel Kokotajilo, OpenAI 퇴직 [6] ㅇㅇ(125.191) 04.17 1136 20
456805 정보 생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다 [3] ㅇㅇ(182.230) 04.17 1169 22
456804 정보 "구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3] ㅇㅇ(182.230) 04.17 980 23
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2