디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 딥마인드, 미세조정 없이 성능 개선하는 ‘다중샷 상황 내 학습’ 공개

ㅇㅇ(182.230) 2024.04.26 18:17:02
조회 1902 추천 26 댓글 11
														

https://www.aitimes.com/news/articleView.html?idxno=159122

 



7ce88977b78007f739ee85e147ee71686536232284873cc610c577d5178e570087



구글 딥마인드 연구진이 대형언어모델(LLM)의 긴 컨텍스트 창을 활용, 복잡한 미세조정 없이 애플리케이션에 맞춰 모델의 성능을 개선하는 학습 기술을 공개했다. 그러나 이에 따른 리소스 문제로, 애플리케이션 탐색이나 프로토타이핑 등 초기 단계에서 LLM 성능을 시험해볼 도구로 유용하다는 평가다.


벤처비트는 24일(현지시간) 구글 딥마인드 연구진이 프롬프트에 수백~수천개의 훈련 사례를 적용, 미세조정을 하지 않고 LLM의 성능을 향상시킬 수 있는 ‘다중샷 상황 내 학습(Many-shot In-Context Learning)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.


일반적으로 ‘퓨샷 학습(Few-shot) 학습’이라고도 하는 ‘상황 내 학습(ICL)’을 통해 LLM은 추론 시 제공된 예제를 통해 새로운 작업을 학습할 수 있다. LLM에 해결해야 하는 문제와 함께 문제를 해결하는 몇가지 응답 예제가 포함된 프롬프트를 제공하면, LLM이 예제를 보고 학습하는 방식이다.


미세조정과 달리 ICL은 모델의 매개변수를 변경할 필요가 없기 때문에 사용자가 더 쉽게 사용하고 액세스할 수 있다.


다만 ICL은 모델의 컨텍스트 창에 의해 제한된다. 예를 들어 'GPT-3'에는 약 2000개의 토큰을 지원하는 컨텍스트 창이 있어 프롬프트에 입력할 수 있는 예제 수가 제한된다. 


하지만 최신 모델들은 10만개 이상의 토큰을 지원하는 컨텍스트 창을 제공하며, 특히 구글의 '제미나이 1.5 프로'는 100만개가 넘는 토큰을 지원한다. 이로 인해 각 프롬프트에 수천개의 ICL 예제를 넣을 수 있다. 


연구진은 다중샷 ICL이 수학 문제 해결, 질문 답변, 결과 보상 모델링, 리소스가 부족한 언어 번역, 계획 및 감정 분석 등 여러 문제 영역에서 LLM의 성능에 얼마나 영향을 미치는지 실험했다.



7ce88977b78007f739ee85e144ee716bca9923d6f637351adc44da1fd7180fc031



어떤 경우에는 하나의 프롬프트에 최대 8192개의 ICL 예제가 포함됐다. 연구 결과에 따르면 더 많은 예제가 프롬프트에 추가될수록 모델의 성능이 계속 향상되는 것으로 나타났다.


번역 작업에서 다중샷 ICL을 적용한 제미나이 프로는 리소스가이 부족한 쿠르드어와 타밀어에 대해 새로운 최고 성능을 기록했다. 요약 작업에서 다중샷 ICL을 적용한 제미나이 프로가  미세조정된 요약 모델과 동등한 성능을 기록했다. 모든 작업에서 모델 성능은 프롬프트 내의 예제의 수가 수십만개 이상의 토큰으로 확장된 경우에만 최대에 도달했다.


다만 다중샷 ICL은 인간이 대량의 고품질 예제를 생성해야하는 어려움이 있다. 연구진은 이 문제를 해결하기 위해 LLM에 작업에 대한 사고사슬(CoT) 프롬프트를 제공, 모델이 원하는 예제를 생성하게 했다. CoT 프롬프트는 유사한 작업을 해결하기 위한 추론 단계를 프롬프트 앞에 추가, LLM이 원하는 작업을 위한 올바른 예제를 생성하도록 한다. 


연구진은 LLM이 작업 해결에 필요한 지식을 이미 보유하고 있는 경우, 프롬프트에 관련 정보를 추가해 모델이 내부 개념에 더 집중하도록 하는 방법도 도입했다. 문제에 대한 제로샷이나 퓨샷 프롬프트와 함께 해결되지 않은 문제 목록으로 프롬프트를 구성하는 식이다.


연구진은 “CoT 프롬프트를 사용하거나 문제만 사용하면 인간 생성 데이터에 대한 다중샷 ICL의 의존성을 줄일 수 있다는 것을 발견했다”라고 말했다.


특히 일부 전문가들은 LLM의 컨텍스트 창이 커짐에 따라 미세조정 모델이나 검색 증강 생성(RAG)과 같은 다른 기술이 더 이상 필요하지 않다고 지적한다. 모델을 미세조정하거나 복잡한 검색 파이프라인을 생성하는 대신, 작업에 필요한 정보와 학습 예제 및 지침이 포함된 프롬프트를 만들 수 있다는 설명이다.


그러나 현재로서는 다중샷 ICL과 같은 기술을 확장하기 어렵다. 수백개의 예제로 모든 프롬프트를 늘리면, 추론 속도와 비용이 폭발적으로 증가하기 때문이다. 


따라서 다중샷 ICL은 LLM 애플리케이션 프로그램의 탐색 및 프로토타이핑 단계에서 다양한 프롬프트 엔지니어링 기술을 시험해 볼 수 있는 유용한 도구가 될 수 있다는 지적이다.


자동등록방지

추천 비추천

26

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2860 설문 경제관념 부족해서 돈 막 쓸 것 같은 스타는? 운영자 24/05/13 - -
471475 일반 념글 사과문제 영어로 하니까 맞추는데? [14] ㅇㅇ(119.192) 05.14 3867 29
471384 일반 념글GPT4도 리롤하면 사과문제 못맞추잖아 [7] ㅇㅇ(121.184) 05.14 3029 17
471376 일반 4o에 왜 열광하는지 모르겠음 [61] 비닌갤로그로 이동합니다. 05.14 6219 37
471362 일반 gpt 4o 빠른대신 구리네 [24] ㅇㅇ(175.125) 05.14 5630 25
471328 토의 하도 근들갑 떨어대길래 공식영상 보고 왔는데 [21] ㅇㅇ(103.212) 05.14 3591 31
471293 일반 솔직히 살짝 짜치면 개추... [8] ㅇㅇ(183.98) 05.14 5323 40
471208 일반 gpt4o 이미지 인식 미쳤네 ㅋㅋㅋㅋ [27] 비오는날의개구리갤로그로 이동합니다. 05.14 5786 24
471167 정보 개쩌는 오픈AI, GPT-4o 음성 모델 영상 모음 [23] 월코존버갤로그로 이동합니다. 05.14 5059 37
471082 일반 ㄹㅇ TTS, stt 모델 갖다 버렸네 도약이노 [16] ㅇㅇ(220.71) 05.14 4039 21
471058 일반 오늘새벽 광란의 특갤 실전 요약.jpg [10] ㅇㅇ갤로그로 이동합니다. 05.14 4526 39
471035 일반 GPT-5 진행상황 곧 공개? [12] ㅇㅇ(59.5) 05.14 4429 24
470838 일반 이미지 인식능력 돌았다 [9] ㅇㅅㅇ(210.91) 05.14 3679 22
470819 일반 Gpt4o 이미지 인식능력 장난아니네 [7] ㅇㅅㅇ(210.91) 05.14 3964 19
470537 정보 GPT-4o MMLU 88.7 [9] ㅇㅇ(61.82) 05.14 3127 19
470528 AI창 gpt4o로 만든거 gif로 쪄왔다 ㅋㅋㅋㅋ 싹 다 가속시켜!!! [18] ㅇㅇ(121.162) 05.14 2054 22
470492 일반 GPT-4o는 3시간당 80개 메세지 가능 [20] ㅇㅇ(175.208) 05.14 4235 25
470467 일반 이쯤에서 특갤 민심 테스트 간다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [15] lightvector갤로그로 이동합니다. 05.14 3251 69
470406 정보 너희들 마지막에 집중안했노 [5] ㅇㅇ(119.77) 05.14 2932 23
470303 일반 영화 her 새짤 개웃기노 ㅋㅋㅋㅋ [15] ㅇㅇ(222.99) 05.14 4787 41
470283 일반 GPT4 초기랑 비슷하니 뭐니하던거 웃음벨이고 ㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.14 2024 23
470248 일반 얘한테 당장 7000조 줘야하면 개추 [9] ㅇㅇ(121.131) 05.14 3542 67
470244 정보 gpt4o 추가 예시 [26] 특갤용갤로그로 이동합니다. 05.14 4416 31
469010 정보 [오피셜] 고화질 also 벤치마크 떴다!!!! [20] lightvector갤로그로 이동합니다. 05.14 3456 29
470025 정보 오늘 밝혀진 중요한 정보 [13] ㅇㅇ(119.77) 05.14 3450 27
470148 정보 속보))알트만의 gpt-4o 모델 설명!!!!!!!! [10] lightvector갤로그로 이동합니다. 05.14 3948 31
470217 일반 알트만 : her [23] ㅇㅇ(59.5) 05.14 2853 28
470153 일반 gpt-4o api 써봤다 속도 뭐냐..................?? [29] ㅇㅇ(49.143) 05.14 4088 25
470139 일반 한국어 토큰 1.7배 감소 [3] ㅇㅇ(125.250) 05.14 2719 22
469815 정보 오늘 새벽 OpenAI 발표 총요약본...txt [26] lightvector갤로그로 이동합니다. 05.14 7129 60
469797 일반 시발년들아 개추 안박고 뭐하냐 [8] ㅇㅇ(58.29) 05.14 2177 56
467482 일반 와 진짜 뭐가오길래 공홈에다 이따구로 근들갑떨어놓은거임? ㅋㅋ [29] ㅇㅇ(124.111) 05.13 4757 40
467404 일반 오늘 자러간 꿀잠충, 출근충, 선형충이 보게 될 상황...JPG [13] ㅇㅇ(175.125) 05.13 3378 33
467355 일반 와 시발 also 진짜 말도 안 되네 [14] ㅇㅇ(210.106) 05.13 3930 22
467137 일반 ??? : 지는 거예요...? [5] ㅇㅇ(218.156) 05.13 2910 28
467129 일반 특갤 개씹뒤집어지는 시나리오... [19] ㅇㅇ갤로그로 이동합니다. 05.13 3951 41
467036 일반 also랑 gpt-4 초기랑 비슷하다 이 지랄하네 ㅋㅋ [31] ㅇㅇ(106.247) 05.13 3356 30
466881 일반 딱 봐도 이거 확정이네 [38] ㅇㅇ(220.71) 05.13 5255 33
466436 일반 고민하는 ai는 진짜 대박인데? [59] ㅇㅇ(117.20) 05.12 6103 31
466269 정보 챗지피티에 GPT4.5 업데이트 암시 [15] ㅇㅇ(121.124) 05.12 4876 27
466105 일반 흥분하는 openai 연구원 [43] ㅇㅇ(125.191) 05.12 5608 22
466096 일반 모레 새벽 특갤 예상 [20] ㅇㅇ(211.197) 05.12 3933 40
466090 AI창 gpt2로 DOOM 만들기 [58] ㅇㅇ갤로그로 이동합니다. 05.12 5501 81
465944 일반 "내부적으로 달성된 agi는 없어ㅎㅎ" [36] ㅇㅇ(114.202) 05.11 4468 41
465939 일반 알트만이 UBI와 AGI 분배에 대해 언급한 영상들 [16] 월코존버갤로그로 이동합니다. 05.11 2979 26
465911 일반 [긴급] 애플, 아이폰에 Chat GPT 탑재 협상 중 [2] ㅇㅇ(218.147) 05.11 605 24
465871 일반 알트만: 내부적으로 AGI는 없어 ㅎㅎ 미안! [16] ㅇㅇ(59.17) 05.11 4065 25
465859 일반 알트만 : 존나좋다. 기대해라 [36] ㅇㅇ(59.5) 05.11 4704 23
465851 일반 알트만 NSFW 직접언급 사칭아님 ㅇㅇㅇ [11] ㅇㅇ(59.5) 05.11 2229 17
465806 일반 GPT-5는 없을 수도 [31] 특술람갤로그로 이동합니다. 05.11 3790 16
465772 정보 OAI 연구원 : "GPT5보다 멋질 것" [26] ㅇㅇ(118.235) 05.11 4063 17
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2