디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 개인적으로 대단하다고 느꼈던 점

ㅇㅇ(175.206) 2024.05.14 11:12:20
조회 310 추천 6 댓글 6
														

- 개인적으로 대단하다고 느꼈던 거임. 그래서 '아닌데?' 라고 생각하면 그게 맞음 -


거창한 걸 이야기하려는 건 아니긴한데.


'그냥 기존에 GPT 앱에서 되던 거 좀 실시간으로 하는 정도만 개선 된 거 아니냐?' 라는 사람들이 좀 있던데 나는 좀 다름.


일단 기존 방식을 이해해야 함.




기존 음성 대화 방식은


STT(speech to text)를 써서, 내가 말한 걸 text로 바꿈.


이 바뀐 text를 우리가 GPT4 쓰듯, 얘한테 입력 시켜줌. 그러면 GPT4는 대답을 하겠지.


그럼 그 대답을 TTS(text to speech)로 읽어줌.


이것도 나름 성능은 괜찮았음. 한국어로 주로 썼었는데, 보통 이런 언어관련 모델들이 한국어는 찬밥 신세인 걸 생각해도 괜찮았음.


다만 딜레이가 좀 있었지.


그리고, 블로그에도 써있지만, 정보 손실이 너무 큼. speech를 text로 바꾸는 과정에서, 목소리 톤, 속도, 감정, 소리 관련된 거의 모든 정보는 소실됨.




근데 이번 발표에서 보여준 건.


겉으로 볼 때는, 위 과정을 그냥 빠르게 한 것 같지만 전혀 다름.


STT -> LLM -> TTS 이게 아니라


그냥 바로 speech -> speech임.


이게 왜 말이 안 된다고 생각하냐면, 위의 방식은 기존에 있는 기술을 그냥 엮으면 사실 되는 거임. 새로 모델 학습할 것도 전혀 없음.


시중 오픈소스 3개 연결시키면 특붕이들도 비슷하고 구리게 다 만들 수 있음.


근데 아래는 전혀 다름.


아예 audio를 새로 학습 시켜야함.


이게 왜 대단하냐면



1.기존 방식도 결국 text를 입력 시키는 거임.


text를 쓰면, text -> LLM -> text 인거고


음성 기능을 써도 speech -> text -> LLM -> text -> speech 인거임.


근데, 쟤네는 지금


text -> LLM -> text 도 하면서

speech -> LLM -> speech 도 할 수 있다는 거잖음? 즉 LLM이 text나 speech나 구별 안 하고 입력 받는다는 건데...........이게 뭐지?



2.어떻게 학습 시켰는 지도 신기함.


단순하게 STT를 안 쓴다고 음성 데이터의 정보가 살아남는 게 아님. 어느정도 라벨링도 중요함.


화난 목소리가 있다고 화난 목소리를 학습해서, 모델한테 화난 목소리 해줘! 라고 말하면 듣는 게 아님.


어떤 목소리에 대해서 '화났다'라는 라벨링이 제대로 되어 있어야함. 더 많은 감정,속도,톤,상황 등이 있다면 그것도 제대로 라벨링이 되어 있어야 알아들음.


기계처럼 말하는 모델에게 '기계처럼 말해줘'를 요청하는 건 쉬움.


노래하듯 말하는 모델에게 '노래하듯 말해줘'를 요구하는 것도 그렇고.


그런데, 이걸 한번에 하는 건.....어떻게 하는 거지?....



SORA가 생각나는 대목인데, 영상 데이터 많은 구글이 왜 영상 생성은 아직 제대로 못 하냐는 말이 있음.


그래서 찌라시로, SORA는 자기들 달리 써서, text -> 달리 -> image -> 언리얼 -> video 로 학습 데이터 만들었다는 얘기가 있음.


이게 AI 깔짝 해본 나한테는 중요하게 와닿는 게. AI가 학습하는 건 라벨링이 중요함.


즉, 영상만 많다고 되는....학습 방식도 있긴 하지만, 그래도 내가 원하는 영상이 있고 그걸 text 적어서 만들어내려면


학습할 때, 영상과 그 영상에 대한 text가 제대로 연결되어 있어야함.


그래서 찌라시 방식은 본인들이 원하는 방식의 정확한 라벨링 데이터를 직접 생성해낼 수 있다는 말이라서 의미가 크다고 봄.


그런 측면에서, openAI가 이번 모델을 학습 시키는데, audio 데이터를 '직접' 생성해내서 학습 시키지 않았을까 하는 생각이 듬.


쥬크박스라는 오디오생성 모델이 있다는 썰이 있으니, 걔한테 text -> 쥬크박스 -> audio 이렇게 해서 수많은 오디오 데이터를 만들고 그걸 학습 시켰다면?



---------------------


내가 이렇게 잘 모르고 글 쓰면, 좀 배운 특붕이 형들이 수정해주긴 하더라. 내가 호들갑 떨고 있는거면 수정해주셈.

(나도 몇일 지나고 더 줏어듣다보면 '아.....그냥 이렇게 하면 되는 거구나...ㅋㅋ....ㅎㅎ....;;; 이럴지도 모르겠는데)


근데 그냥 겉보기로는 '기존 음성 대화 개선한 것 뿐이잖아?' 이건데


이걸 '어떻게' 개선 했는지를 추측해보기 시작하면, 난 좀 말 안 된다고 생각함.


기존 방식 좀 빠르게 한다 수준이 아니잖음. 음성 정보를 살려야 하고, 그 성능이 GPT4급 답변이어야 한다니. 이게 뭐람.


---------------------


근데 내가 호들갑일 수 있는 게, 아예 새롭게 학습한거라면, 이것도 대단한 성과니까 이번 발표 때 말했을 것 같기도 함.


우리는 음성도 입력 받을 수 있게 새로 학습했습니다. 음성 모델로 SORA 같은 혁신을 만들었어요.


뭐 이런걸텐데, 아무 언급도 안 함. 그래서 그냥 기존 음성 대화 기능 많이 개선한 것처럼 발표해버림.


둘 중 하나겠지. 내가 호들갑 떤 방식으로 만든 게 아니라, 그냥 적당히 개선한 거든지.


아니면, 밝힐 필요도 없는 수준인건지.



뭐 모르겠지만, 난 이번 발표가 곱씹어 볼수록 너무 인상적임.


어제 산책하면서 '감정 섞인 오디오를 내뱉는 TTS 모델을 만들려면, 기존 방식은...감정의 특징을, 후처리 하듯 audio에 입히는 건데, 이것보다 아예 입력 자체를 다양하게 라벨링 된 오디오 데이터를 학습해야 하는 거 아닌가.....근데 그거 어떻게 하지. 데이터 구하는 것도 문제고, 스케일이...너무 크네.'


이랬는데 그걸 하루만에 눈으로 봐서 이러는 건지도 모름.


내가 너무 호들갑인가....

자동등록방지

추천 비추천

6

고정닉 4

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
483353 일반 애 낳을거면 역노화 하지 마라 [14] ㅇㅇ갤로그로 이동합니다. 05.28 233 0
483352 일반 API는 밴 없는데 면웹 GPT 는 왜 밴이 있냐? [2] ㅇㅇ(210.105) 05.28 94 0
483351 일반 세상을 바꾸는건 대학원생이라고 하는데 [3] ㅇㅇ(106.101) 05.28 126 0
483349 일반 결론 : 얀 르쿤, 일론 머스크 둘 다 병신임. [3] ㅇㅇ(1.239) 05.28 232 1
483348 일반 내달 5일 스타십 4차발사 ㅇㅇ(223.62) 05.28 95 0
483347 일반 좆스크 거품이긴 함 [3] ㅇㅇ(163.152) 05.28 139 2
483346 일반 그록 개구린데 그냥 oai랑 화해하지 연맛갤로그로 이동합니다. 05.28 52 0
483345 일반 프론티어 모델 존버 ㅇㅇ(210.110) 05.28 45 0
483344 일반 얘들아 나 큰일낫다... Gpt4로 야한거 뽑으면 안되냐? [15] ㅇㅇ(211.179) 05.28 359 0
483343 일반 테슬람들 제일 웃긴 게 도조 슈퍼컴 빤거지 [2] ㅇㅇ(218.147) 05.28 125 0
483342 일반 얀 르쿤 입장에서는 일론이 어이 없지 [5] ㅇㅇ(163.152) 05.28 146 0
483340 일반 4o가 환각 더 심해진거 같네 [2] ㅇㅇ(121.155) 05.28 172 0
483339 일반 일론이 선빵쳤음 ㅇㅇ [4] ㅇㅇ갤로그로 이동합니다. 05.28 249 3
483338 일반 얀르쿤 빠돌이보다 더 역겨운게 일론 빠는 테슬람임 ㅇㅇ ㅇㅇ(121.173) 05.28 59 1
483337 일반 GPT-4o에 젠슨황 짤 던져주기 ㅇㅇ­갤로그로 이동합니다. 05.28 145 1
483336 일반 ai한정 얀르쿤>>>>>>씹론인데 ㅋㅋ ㅇㅇ(218.39) 05.28 105 1
483335 일반 좆르쿤 특징 <- 맨날 투기장열고 싸움검 ㅇㅇ(211.179) 05.28 57 0
483334 일반 일론이랑 xAI (그록) 존나게 올려치노 ㅋㅋ [4] ㅇㅇ(123.212) 05.28 230 4
483333 일반 얀르쿤 말이 틀린건 없는데 [3] ㅇㅇ(175.208) 05.28 99 0
483332 일반 아니 얀르쿤이 판 깔아준건 인정하는데 [11] ㅇㅇ갤로그로 이동합니다. 05.28 261 1
483331 일반 좆르쿤쉑 머스크한테 쳐맞고있노 ㅋㅋ [2] ㅇㅇ(14.53) 05.28 211 1
483330 일반 오늘도 노동해방과 특이점을 향한 기도를 올립니다 [3] ㅇㅇ(220.127) 05.28 60 0
483329 일반 특부이들 겉으론 얀르쿤 정듬ㅋㅋㅋㅋ 했지만 [2] ㅇㅇ(106.101) 05.28 103 0
483328 일반 ''아마존AI 까고보니 인도 노동자 1000명'' [5] ㅇㅇ갤로그로 이동합니다. 05.28 356 5
483327 일반 얀레쿤 너무 깝치고 다닌다 싶었는데 결국 쳐맞네 ㅋㅋㅋ [3] ㅇㅇ갤로그로 이동합니다. 05.28 172 1
483325 일반 GPT4는 번역하다가 엉뚱한 소리하던데 카탁프락T갤로그로 이동합니다. 05.28 97 0
483324 일반 얀르쿤 "난 과학자" vs 일론 "그래서 지난 5년간 한게 뭔데?" [22] ㅇㅇ(125.184) 05.28 553 14
483323 일반 gpt로 코딩할 때 공홈에서 하는 저능아 있냐? [5] ㅇㅇ(121.159) 05.28 276 0
483322 일반 GPT4로 모델링을 시켜봄 [4] 야른갤로그로 이동합니다. 05.28 233 4
483321 일반 gpt4 어플 무료임? [1] 페이트웨이갤로그로 이동합니다. 05.28 128 0
483320 일반 요즘태어나는 특수저들이 과연 이득일까 [5] ㅇㅇ(125.249) 05.28 200 1
483319 일반 딥엘 이제 뭐로 장사해먹고 사냐? [7] ㅇㅇ(118.35) 05.28 233 0
483318 일반 GPT 스토어에 한국 관련컨텐츠 있음? ㅇㅇ갤로그로 이동합니다. 05.28 44 0
483317 일반 제미니 api RPD 초기화되는 기준 아는 사람?? ㅇㅇ(122.199) 05.28 39 0
483316 일반 미래는 갓예인들의 세상일듯 [4] H:갤로그로 이동합니다. 05.28 345 1
483315 일반 기술 발전만이 구원이다 ㅇㅇ(1.239) 05.28 41 0
483314 일반 얀르쿤이 틀린 이유가.... [3] 특이점이온다갤로그로 이동합니다. 05.28 218 0
483312 일반 하수도를 기어다니는 바퀴벌레가 플레이어일수도있음 [6] ㅇㅇ(59.11) 05.28 279 0
483311 일반 헉 사피엔스는 저자가 문과라 그런지 글이 조금 재밌네 [8] 난난난갤로그로 이동합니다. 05.28 220 0
483310 일반 장담하는데 미래사회에선 못생김이 대우받음 ㅇㅇ [10] ㅇㅇ(211.179) 05.28 409 1
483309 일반 그래서 노동해방 언제가능할거같음 [6] ㅇㅇ갤로그로 이동합니다. 05.28 179 0
483308 일반 얀르쿤은 선형충이라 까이는거지 다른거없음 [7] ㅇㅇ(59.11) 05.28 161 0
483307 일반 얀르쿤이 특갤에서 엄청 욕먹는건 [1] ㅇㅇ갤로그로 이동합니다. 05.28 146 0
483306 일반 얘들아 일론이 르쿤이햄 팬다 ㅋㅋ [10] sutskever갤로그로 이동합니다. 05.28 653 11
483305 일반 GPT4 미친련 이거 왜 원피스를 못그려 ㅅㅂ [3] ㅇㅇ(211.179) 05.28 361 2
483303 일반 나 덧니땜에 치아 두개빼고 교정했거든 ㅇㅇ(14.35) 05.28 131 0
483302 일반 다음은 유발하라리의 사피엔스를 읽을까 해 [4] 난난난갤로그로 이동합니다. 05.28 135 1
483296 일반 과학자란 새끼가 근거도 없이 "안돼" 타령 [5] ㅇㅇ(121.124) 05.28 325 0
483295 일반 gpt 3.5는 병신맞음? [4] ㅇㅇ갤로그로 이동합니다. 05.28 237 0
483294 일반 사실 특이점 혜택 모두가 못보고 죽는 엔딩도 괜찮음 [5] ㅇㅇ갤로그로 이동합니다. 05.28 279 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2