결과물은 이전에 올린 마시로 ai 커버 참고하면 됨...
여기에 대부분의 강좌가 다 적혀있음.
여기서는 Google Colab가 아닌 그냥 로컬(쉽게 말해 사이트가 아닌 컴퓨터만으로)로 작업을 할 거라 코랩 쓰는 사람들은 미안하지만 뒤로가기를 눌러주길 바람... 나 코랩 써보고 싶어도 계속 오류나고 뭔 소린지 몰라서 그냥 로컬로 하는 거임...
1. 작업환경 세팅
나는 멍청하게 이전 버전을 다운받아서 v2 학습을 여태 체험해보지 못했음.... 그래서 모든 작업과정은 아마 v1 기준일거임;;;
니들은 나처럼 잘못 다운받고 후회하지 말아라...
2. 데이터셋 준비
이제 원하는 방캐의 목소리를 찾아서 다 저장해놓자.
② 마시로의 목소리만을 한 30분가량을 녹화한 동영상을 wav 파일로 변환시킨 것(따로 편집할 필요없음. 굳이 할 거면 3~15초가량으로 나눠서 준비)
을 준비해뒀음.
그래서 순수한 목소리만을 뽑아내기 위해 우리는 세 가지 프로그램을 쓸 거임. 원 강좌에선 그냥 RVC web에서 편집하던데 나는 안 써봐서 모르고 이것들도 써보니 꽤 좋아서 이 프로그램들로 진행하겠음.
필요한 프로그램들은 다음과 같다.
Ultimate Vocal Remover - https://github.com/Anjok07/ultimatevocalremovergui/releases (이름 그대로 음원과 보컬을 분리할 수 있음)
RipX - https://hitnmix.com/(음원의 추가적인 화음이나 노이즈를 제거 또는 분리할 수 있음. 유료 프로그램이라 체험기간이 있는데 꽤 요긴함...)
Audacity - https://www.audacityteam.org/download/ (우리가 아는 흔한 음악 편집 프로그램. 여기서는 분할 기능을 많이 애용할 거임.)
먼저 Ultimate Vocal Remover로 음원을 제거할거임.


만약 UVR5를 처음 실행했다면 MDX-Net를 선택한 상태에서 Download More Models로 들어가서
1. Kim Vocal 1
2. UVR-MDX-NET Karaoke 2
3. Reverb HQ
이 세가지를 다운받고 추가로 VR Architecture 선택해서 같은 방법으로 UVR-De-Echo-Aggressive를 다운받아주셈.
원 강좌에선 위의 세가지만 사용하는데 나는 추가로 에코 더 없애려고 다운받아서 썼더니 좋아서 이 방법대로 하고 있음.
이제 Select Input에서 음원 파일들(여러 개 넣을 수 있음!!) 넣어주고 Output은 원하는 경로 설정해놓으셈.

설정은 Kim Vocal과 UVR-MDX-NET Karaoke는 Vocals Only, Reverb HQ는 No Other Only로 설정하고
Kim Vocal 1 - UVR-MDX-NET Karaoke 2 - Reverb HQ 순서대로 변환시키면 됨.
UVR-De-Echo-Aggressive는 에코가 좀 있다 싶으면 쓰면 됨. 나는 일단 전부 (De-Echo는 aggression setting에서 20으로 했는데 별 차이를 모르겠음...)기본설정으로 하고 변환시켰음.
이렇게만 해도 충분히 음뭔과 화음이나 노이즈, 에코가 제거되지만... 막상 들어보면 겹치는 목소리나 화음이 아직 남아있는 경우가 있음... 그래서 추가로 RipX를 사용해 남아있는 잔목소리(?)들을 제거해줄거임.

일단 RipX를 켜고 변환한 파일들을 죄다 프로그램 창에 끌어다 놓고

만약 이런 창이 뜨면 다음과 같이 설정하고 Rip 버튼 누르면 알아서 목소리를 분석해줌.

다 분석하면 위와 같이 목소리 파형이 따로따로 분리되는데, 제대로 분리가 안 된 음원은 이것보다 더 지저분할 수 있음.
여기에서 저 줄들을 하나하나 클릭해가며 목소리 음질이 자신에게 깨끗하게 들릴 때까지 자르고 제거하며 수정하면 된다.
다 수정했다면 File - Export 눌러서 저장해주셈.

이 생고생을 다 했다면 축하한다. 이제 반은 온 거다...
3. 학습하기
이제 AI에게 캐릭터의 목소리를 학습시킬 수 있음.
앞서 말한 go-web.bat를 눌러서 cmd 창이 켜지면 인터넷 창이 열릴 때까지 기다리셈.

기다리면 이런 창이 뜨게 됨.
이제 학습하기로 들어가주면

이런 창이 뜰거임.
실험 이름에는 니들이 만들 목소리 ai의 이름을 적어주고,
버전은 v2로 정해주셈.(앞서 말했지만 난 아직 v1까지밖에 체험을 못해서 차이를 모르겠음...)
학습 폴더 경로는 앞에서 만든 데이터셋의 경로임.
데이터 처리하기와 특성 추출을 눌러 차례로 출력 결과가 끝날 때까지 기다려준 다음,

원 클릭 학습을 눌러주면 학습을 시작하게 됨.
전체 학습 에포크 수는 보통 250을 추천하던데 나는 일단 500번 학습시켰음.
학습 현황은 cmd창에서 확인할 수 있고, 만약 이어서 학습하고 싶으면 이전에 학습했던 전체학습 에포크 수에서 학습하고 싶은 양을 더 늘린 뒤 모델 학습하기를 눌러주면 된다.
참고로 학습 데이터셋을 추가하는 등으로 변경하면 오류 뜨는데 왜 이런지는 나도 모르겠음... 결론 데이터셋을 도중에 추가하면 처음부터 다시 해야 됨ㄷㄷㄷ
4. 추론하기

모델 추론에 들어가서 음색 목록과 인덱스 경로를 새로고침합니다. 를 눌러주면 앞서 니들이 만든 모델이 뜰거임.
처리할 오디오 파일의 경로는 니들이 커버시킬 보컬 파일인데 앞에서 말해준 프로그램으로 분리해서 직접 만들거나 유튜브 등에서 음질 좋은 음원과 보컬 파일을 구할 수 있음.
참고로 이 보컬 파일도 화음이나 노이즈, 에코가 없어야 더 완성도가 높기 때문에 노이즈와 에코는 최대한 죽여주고, 화음은 따로 분리시켜서 따로따로 커버시키면 됨.
이번에는 NCT 드림의 Candy로 해봄.(원곡이 더 좋지만 음질이 안 좋아서...)
음조 변경 란엔 변환할 음성의 높낮이를 조절할 수 있음. 나는 5정도로 높였음.
음높이 추출 알고리즘은 harvest와 crepe 중에서 원하는 걸 고르면 됨.(여태 만든 마시로 ai 커버는 죄다 harvest로 설정한 거였음.)
검색 특성 비율은 사실 잘 모르겠는데 그냥 1로 설정해뒀음.
이제 음성을 변환해주면 ai가 음을 확인하고 커버를 해줄거임!!

좀 기다려주면 이렇게 오디오가 출력되는데, 여기서 결과를 확인할 수 있음.
결과 괜찮고!

이런 식으로 출력을 해주면 이렇게 커버 음원이 완성된다!!
5. 커버곡 만들기(편집하기)
이제 audacity를 켜고 앞에서 구한 배경음과 만들어준 커버 음원을 집어넣어주자.

그러면 이렇게 되는데, 자세히 보면 원래 파형이 없어야 할 부분에도 파형이 들어가 있는 걸 볼 수 있다.
오디오 파일에 우리 귀에 안 들리는 음이 남아있어 그런건데. 이거는 가볍게 잘라주면 되므로 걱정할 필요 없다.

제거할 노이즈 부분을 선택하고

클립 분할을 눌러주면

위처럼 된다.
이제 이걸 Delete로 지워주면 깔끔하게 노이즈를 잘라내기 할 수 있다.

이런 식으로 노이즈나 끊긴 음 등을 계속 편집해주면 다음과 같이 된다.
이제 최애가 노래하는 걸 감상하기만 하면 끝!
따라오느라 수고 많았다 이제 이걸로 니들도 방캐 ai 만들어서 놀 수 있음ㅇㅇ
난 이제 마시로 ai 가지고 더 놀고 오겠음 ㅂㅇ
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.