디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 스태빌리티, 음악 생성 AI '스테이블 오디오' 기능 대폭 강화

ㅇㅇ(182.230) 2024.04.05 03:04:17
조회 155 추천 1 댓글 2
														

https://www.aitimes.com/news/articleView.html?idxno=158567

 



https://youtu.be/2tob9emMhJw



스태빌리티 AI가 음악 생성 인공지능(AI) 모델 '스테이블 오디오'의 성능을 대폭 강화했다. 생성 음악의 길이를 늘이고 다양한 기능을 추가하는 등 최근 돌풍을 일으키는 수노AI의 'V3'에 대응하려는 의도가 엿보인다.


벤처비트는 3일(현지시간) 오디오 생성 AI 스테이블 오디오(Stable Audio)의 업그레이드 버전인 '스테이블 오디오 2.0’가 출시됐다고 보도했다.


스태빌리티 AI는 지난해 9월 ‘스테이블 오디오 1.0’을 선보였다. 이를 통하면 최대 90초 길이의 오디오 파일을 생성할 수 있다.


하지만 이날 출시된 2.0 모델은 최대 3분짜리 오디오 트랙을 생성할 수 있으며, 많은 기능이 추가됐다.


우선 텍스트는 물론 기존 사운드 클립을 프롬프트할 수 있는 것이 눈에 띈다. 여기에 텍스트로 업로드한 샘플을 새로운 사운드 형식으로 변환할 수 있다. 지속적인 수정도 가능하다.


또 실제 팝송처럼 도입부와 전개, 엔딩 부분 구조를 이루며, 연주와 보컬을 모두 포함하는 완전한 음악 트랙을 생성할 수 있다.


이 외에도 전 세대 모델이 지원하지 못했던 음향 효과도 생성할 수 있게 됐다.



https://youtu.be/1JKlwgsCwEg



이런 성능 향상은 기본 AI 아키텍처에 대한 대대적인 업그레이드의 결과다.


이전 버전과 마찬가지로 '확산 모델'을 기반으로 한다. 확산 모델은 미디어 파일 생성에 널리 사용되는 신경망이다.


하지만 스테이블 오디오 2.0은 '잠재 확산 모델(LDM)'로 알려진 기술을 사용한다. 다른 신경망과 마찬가지로 이러한 모델은 배포단계에서 처리할 파일과 유사한 데이터셋으로 훈련한다. 그러나 훈련이 시작되기 전에 데이터셋은 AI 개발 프로세스를 효율적으로 만드는 '잠재 공간'이라는 수학적 구조로 변환된다.


잠재 공간에는 기반이 되는 데이터셋의 가장 중요한 세부 정보만 포함된다. 관련성이 낮은 세부 정보가 제거, 훈련 중에 AI 모델이 처리해야 하는 총 정보량이 줄어든다. 이런 데이터 양의 감소는 AI 훈련에 필요한 하드웨어의 양을 줄여 결과적으로 비용을 절감한다.


스태빌리티 AI는 “일관성 있는 생성을 위해 덜 중요한 세부 사항을 필터링하며 필수 기능을 캡처하고 재현한다”라고 설명했다.


트랜스포머 아키텍처를 기반으로 하는 새로운 신경망도 추가했다. 2017년 구글에서 개발한 트랜스포머 아키텍처는 주로 언어 모델을 구축하는 데 사용된다. 데이터를 해석할 때 많은 양의 문맥 정보를 고려할 수 있기 때문에, 이전 신경망보다 정확한 결과를 생성할 수 있다.


스태빌리티 AI는 “이 두 요소의 결합으로 고품질 음악 작곡에 필수적인 대규모 구조를 인식하고 재현할 수 있는 모델이 탄생했다”라고 강조했다.


이 모델은 웹사이트를 통해 공개됐다. 조만간 개발자를 위한 API도 내놓을 예정이다. 이를 통해 기업들은 스테이블 오디오 2.0을 자사 애플리케이션에 통합할 수 있다.


스테이블 오디오 2.0은 상업용 비공개 모델이며, 올해 후반에 오픈 소스 오디오 모델도 출시 예정이다.


한편 수노의 V3는 뛰어난 생성 음악 퀄리티 이외에도 다양한 사용자 정의와 손쉬운 수정 및 편집 기능 등이 장점으로 꼽히고 있다.



자동등록방지

추천 비추천

1

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
470173 일반 이정도 응답속도면 솔직히 로컬로도 돌아가는 급 아닐까? [11] ㅇㅇ갤로그로 이동합니다. 05.14 139 0
470171 일반 근데 확실한건 8배 트윗쓴샛기는 모가지해야됨 ㅋㅋ [2] ㅇㅇ(221.158) 05.14 154 0
470170 일반 ㄹㅇ 속도 그냥 개미친새끼네 ㅇㅇ갤로그로 이동합니다. 05.14 63 0
470168 일반 api 얼마나 저렴해진건지 봤더니 소넷<4o<4<오푸스네 [1] ㅇㅇ(218.237) 05.14 130 0
470167 일반 gpt5라는건 대체뭐지? ㅇㅇ(58.29) 05.14 43 0
470166 일반 한국어 토큰 감소 [1] 람냥갤로그로 이동합니다. 05.14 199 1
470165 일반 모두가 쓰기 편해지고 가격은 더욱 저렴해졌음 ㅁㄱㅌㅊ(39.122) 05.14 46 0
470164 일반 지금 제일 ㅈ된 새끼...jpg [4] ㅇㅇ­갤로그로 이동합니다. 05.14 287 2
470163 일반 이건 ㅈㄴ 개쩌는데? ㅇㅇ(211.192) 05.14 100 0
470162 일반 올려 ㅇㅇ(61.23) 05.14 31 0
470161 일반 언론 파장이 엄청 클 듯 [1] ㅇㅇ(58.226) 05.14 113 0
470160 일반 실시간 대화 응답 시간 0.3초 이내 [1] ㅇㅇ(218.147) 05.14 258 3
470157 일반 얀르쿤 꿀먹은 벙어리행ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [1] ㅇㅇ(218.153) 05.14 87 1
470155 일반 이제 어떤것이든 폰카메라 키고 분석하라고 명령할수있네 [1] ㅇㅇ(121.186) 05.14 49 0
470154 일반 이러다 거근후타 야스봇 진짜 되는거 아니냐? ㄷㄷㄷ 솔.이☆갤로그로 이동합니다. 05.14 64 0
470153 일반 gpt-4o api 써봤다 속도 뭐냐..................?? [29] ㅇㅇ(49.143) 05.14 4210 26
470152 일반 오픈ai 공동창업자"1~2년안으로 ai가 전체 코딩 프로젝트 수행할것 ㅇㅇ갤로그로 이동합니다. 05.14 172 1
470151 일반 이게 제미니가 하고 싶어했던거 아니냐 [1] ㅇㅇ(61.75) 05.14 55 0
470150 일반 6월 wwdc에서 알트만나와서 gpt5 공개 이런내가특특갤로그로 이동합니다. 05.14 97 0
470147 일반 샘알트만 국가 언제 세우냐 ㅇㅇ(218.153) 05.14 36 0
470146 일반 음모론이 진짜로 밝혀졌는데 큰거 맞지 ㅋㅋㅋ ㅇㅇ(119.77) 05.14 104 1
470145 일반 방금 떠오른 gpt의 모습 ㅇㅇ(175.208) 05.14 101 0
470144 일반 내부에선 얼마나 좋은 ai 쓰고있을지 궁금하네 [2] ㅇㅇ(211.241) 05.14 80 0
470143 일반 gpt4o에 대한 샘알트만의 생각 ㅇㅇ(58.29) 05.14 45 0
470142 일반 알트만 gpt4o에 대한 생각 [2] ㅇㅇ(125.191) 05.14 139 2
470141 일반 이러다 병원갈일도 줄어들듯 [1] 1229(1.229) 05.14 67 0
470140 일반 x나 레딧 반응은 어떠냐 [3] ㅇㅇ(115.139) 05.14 120 0
470139 일반 한국어 토큰 1.7배 감소 [3] ㅇㅇ(125.250) 05.14 2828 23
470138 일반 구글 인공지능 기대감 조질려고 ㅋㅋ oai를 믿었다 ㅋㅋㅋㅋㅋ 연맛갤로그로 이동합니다. 05.14 44 0
470137 일반 흠... 옆으로 간다.. ㅇㅇ(115.23) 05.14 39 0
470135 일반 전통의 성능측정기 mmlu는 몇임? [2] ㅇㅇ갤로그로 이동합니다. 05.14 65 0
470134 일반 아 근데 좀 무섭네 ㅇㅇ(58.226) 05.14 71 0
470133 일반 다시보기 어디서 보냐 [1] 앙앙갤로그로 이동합니다. 05.14 34 0
470132 일반 아쉽긴하네 ㅇㅇ(211.205) 05.14 40 0
470131 일반 솔직히 근들갑 떤거에 비해서는 좀 실망하긴했는데 [2] ㅇㅇ(210.106) 05.14 124 0
470130 일반 이거가 시장을 뒤집어놓을 꺼라고 기대하진 않는데 [1] ㅇㅇ(211.177) 05.14 76 0
470129 일반 희망적인건 알트만 눈이 ㅈㄴ특붕이수준으로 높다는거임 [3] ㅇㅇ갤로그로 이동합니다. 05.14 105 1
470128 일반 미친거 아니냐?? API 가격 봐라 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ(121.162) 05.14 449 4
470127 일반 무섭다 공포 , 신이 되려하는 어쩌고 ㅋㅋㅋㅋㅋ ㅇㅇ(218.153) 05.14 44 0
470126 일반 2025 agi 확정이네 이세이미야케갤로그로 이동합니다. 05.14 54 0
470125 일반 나 왜 4o 없어 터져갤로그로 이동합니다. 05.14 85 0
470124 일반 밑에 누구 말마따나 데이터 빈부격차 커지겠네 ㅇㅇ(14.39) 05.14 64 0
470123 일반 그래서 mmlu 몇이냐 [1] ㅇㅇ(222.112) 05.14 29 0
470122 일반 2-3주에 쓸 수 있다매?ㅋㅋㅋㅋㅋ 4o 지금 바로 사용가능한데?ㅎㅎ [5] ㅎㅎ(112.171) 05.14 205 0
470121 일반 저 영상을 본 통역학과 학생들이 사실 가장 걱정임 [2] ㅇㅇ(218.39) 05.14 125 0
470120 일반 근들갑 다 빼고 속도는 진짜로 역대급 ㅇㅇ(218.154) 05.14 61 0
470119 일반 오픈AI앱 = 윈도우 올해말 [7] ㅇㅅㄱ(210.91) 05.14 221 1
470118 일반 내일 유튜브 터지겠네 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.14 165 0
470117 일반 나 아이폰14인데 [1] 자애갤로그로 이동합니다. 05.14 67 0
470116 일반 이미지랑 음성인식 실시간인게 이렇게 무섭네 ㅇㅇ(220.76) 05.14 40 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2