디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 딥마인드, 미세조정 없이 성능 개선하는 ‘다중샷 상황 내 학습’ 공개

ㅇㅇ(182.230) 2024.04.26 18:17:02
조회 1919 추천 26 댓글 11
														

https://www.aitimes.com/news/articleView.html?idxno=159122

 



7ce88977b78007f739ee85e147ee71686536232284873cc610c577d5178e570087



구글 딥마인드 연구진이 대형언어모델(LLM)의 긴 컨텍스트 창을 활용, 복잡한 미세조정 없이 애플리케이션에 맞춰 모델의 성능을 개선하는 학습 기술을 공개했다. 그러나 이에 따른 리소스 문제로, 애플리케이션 탐색이나 프로토타이핑 등 초기 단계에서 LLM 성능을 시험해볼 도구로 유용하다는 평가다.


벤처비트는 24일(현지시간) 구글 딥마인드 연구진이 프롬프트에 수백~수천개의 훈련 사례를 적용, 미세조정을 하지 않고 LLM의 성능을 향상시킬 수 있는 ‘다중샷 상황 내 학습(Many-shot In-Context Learning)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.


일반적으로 ‘퓨샷 학습(Few-shot) 학습’이라고도 하는 ‘상황 내 학습(ICL)’을 통해 LLM은 추론 시 제공된 예제를 통해 새로운 작업을 학습할 수 있다. LLM에 해결해야 하는 문제와 함께 문제를 해결하는 몇가지 응답 예제가 포함된 프롬프트를 제공하면, LLM이 예제를 보고 학습하는 방식이다.


미세조정과 달리 ICL은 모델의 매개변수를 변경할 필요가 없기 때문에 사용자가 더 쉽게 사용하고 액세스할 수 있다.


다만 ICL은 모델의 컨텍스트 창에 의해 제한된다. 예를 들어 'GPT-3'에는 약 2000개의 토큰을 지원하는 컨텍스트 창이 있어 프롬프트에 입력할 수 있는 예제 수가 제한된다. 


하지만 최신 모델들은 10만개 이상의 토큰을 지원하는 컨텍스트 창을 제공하며, 특히 구글의 '제미나이 1.5 프로'는 100만개가 넘는 토큰을 지원한다. 이로 인해 각 프롬프트에 수천개의 ICL 예제를 넣을 수 있다. 


연구진은 다중샷 ICL이 수학 문제 해결, 질문 답변, 결과 보상 모델링, 리소스가 부족한 언어 번역, 계획 및 감정 분석 등 여러 문제 영역에서 LLM의 성능에 얼마나 영향을 미치는지 실험했다.



7ce88977b78007f739ee85e144ee716bca9923d6f637351adc44da1fd7180fc031



어떤 경우에는 하나의 프롬프트에 최대 8192개의 ICL 예제가 포함됐다. 연구 결과에 따르면 더 많은 예제가 프롬프트에 추가될수록 모델의 성능이 계속 향상되는 것으로 나타났다.


번역 작업에서 다중샷 ICL을 적용한 제미나이 프로는 리소스가이 부족한 쿠르드어와 타밀어에 대해 새로운 최고 성능을 기록했다. 요약 작업에서 다중샷 ICL을 적용한 제미나이 프로가  미세조정된 요약 모델과 동등한 성능을 기록했다. 모든 작업에서 모델 성능은 프롬프트 내의 예제의 수가 수십만개 이상의 토큰으로 확장된 경우에만 최대에 도달했다.


다만 다중샷 ICL은 인간이 대량의 고품질 예제를 생성해야하는 어려움이 있다. 연구진은 이 문제를 해결하기 위해 LLM에 작업에 대한 사고사슬(CoT) 프롬프트를 제공, 모델이 원하는 예제를 생성하게 했다. CoT 프롬프트는 유사한 작업을 해결하기 위한 추론 단계를 프롬프트 앞에 추가, LLM이 원하는 작업을 위한 올바른 예제를 생성하도록 한다. 


연구진은 LLM이 작업 해결에 필요한 지식을 이미 보유하고 있는 경우, 프롬프트에 관련 정보를 추가해 모델이 내부 개념에 더 집중하도록 하는 방법도 도입했다. 문제에 대한 제로샷이나 퓨샷 프롬프트와 함께 해결되지 않은 문제 목록으로 프롬프트를 구성하는 식이다.


연구진은 “CoT 프롬프트를 사용하거나 문제만 사용하면 인간 생성 데이터에 대한 다중샷 ICL의 의존성을 줄일 수 있다는 것을 발견했다”라고 말했다.


특히 일부 전문가들은 LLM의 컨텍스트 창이 커짐에 따라 미세조정 모델이나 검색 증강 생성(RAG)과 같은 다른 기술이 더 이상 필요하지 않다고 지적한다. 모델을 미세조정하거나 복잡한 검색 파이프라인을 생성하는 대신, 작업에 필요한 정보와 학습 예제 및 지침이 포함된 프롬프트를 만들 수 있다는 설명이다.


그러나 현재로서는 다중샷 ICL과 같은 기술을 확장하기 어렵다. 수백개의 예제로 모든 프롬프트를 늘리면, 추론 속도와 비용이 폭발적으로 증가하기 때문이다. 


따라서 다중샷 ICL은 LLM 애플리케이션 프로그램의 탐색 및 프로토타이핑 단계에서 다양한 프롬프트 엔지니어링 기술을 시험해 볼 수 있는 유용한 도구가 될 수 있다는 지적이다.


자동등록방지

추천 비추천

26

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2868 설문 힘들게 성공한 만큼 절대 논란 안 만들 것 같은 스타는? 운영자 24/06/10 - -
2870 이슈 [디시人터뷰] 웃는 모습이 예쁜 누나, 아나운서 김나정 운영자 24/06/11 - -
469797 일반 시발년들아 개추 안박고 뭐하냐 [8] ㅇㅇ(58.29) 05.14 2262 56
467482 일반 와 진짜 뭐가오길래 공홈에다 이따구로 근들갑떨어놓은거임? ㅋㅋ [29] ㅇㅇ(124.111) 05.13 4848 40
467404 일반 오늘 자러간 꿀잠충, 출근충, 선형충이 보게 될 상황...JPG [13] ㅇㅇ(175.125) 05.13 3503 33
467355 일반 와 시발 also 진짜 말도 안 되네 [14] ㅇㅇ(210.106) 05.13 4072 22
467137 일반 ??? : 지는 거예요...? [5] ㅇㅇ(218.156) 05.13 3008 28
467129 일반 특갤 개씹뒤집어지는 시나리오... [20] ㅇㅇ갤로그로 이동합니다. 05.13 4106 43
467036 일반 also랑 gpt-4 초기랑 비슷하다 이 지랄하네 ㅋㅋ [31] ㅇㅇ(106.247) 05.13 3415 30
466881 일반 딱 봐도 이거 확정이네 [37] ㅇㅇ(220.71) 05.13 5405 33
466436 일반 고민하는 ai는 진짜 대박인데? [59] ㅇㅇ(117.20) 05.12 6258 31
466269 정보/ 챗지피티에 GPT4.5 업데이트 암시 [15] ㅇㅇ(121.124) 05.12 4973 27
466105 일반 흥분하는 openai 연구원 [42] ㅇㅇ(125.191) 05.12 5760 22
466096 일반 모레 새벽 특갤 예상 [20] ㅇㅇ(211.197) 05.12 3987 40
466090 AI창 gpt2로 DOOM 만들기 [58] ㅇㅇ갤로그로 이동합니다. 05.12 7385 81
465944 일반 "내부적으로 달성된 agi는 없어ㅎㅎ" [36] ㅇㅇ(114.202) 05.11 4576 42
465939 일반 알트만이 UBI와 AGI 분배에 대해 언급한 영상들 [14] 월코존버갤로그로 이동합니다. 05.11 3135 27
465911 일반 [긴급] 애플, 아이폰에 Chat GPT 탑재 협상 중 [2] ㅇㅇ(218.147) 05.11 693 24
465871 일반 알트만: 내부적으로 AGI는 없어 ㅎㅎ 미안! [16] ㅇㅇ(59.17) 05.11 4151 25
465859 일반 알트만 : 존나좋다. 기대해라 [36] ㅇㅇ(59.5) 05.11 4777 23
465851 일반 알트만 NSFW 직접언급 사칭아님 ㅇㅇㅇ [11] ㅇㅇ(59.5) 05.11 2290 17
465806 일반 GPT-5는 없을 수도 [31] 특술람갤로그로 이동합니다. 05.11 3862 16
465772 정보/ OAI 연구원 : "GPT5보다 멋질 것" [25] ㅇㅇ(118.235) 05.11 4138 17
465433 정보/ 방금 샘알트만 오피셜 "GPT-5도, 검색엔진도 아니다." [48] 초존도초갤로그로 이동합니다. 05.11 5330 33
465412 정보/ 소금•물 이용해 인간 뇌세포처럼 움직이는 바이오컴퓨터 [8] ㅇㅇ(182.230) 05.11 2482 23
465403 정보/ 에너지 밀도가 19배 높은 새로운 커패시터 [2] ㅇㅇ(118.39) 05.11 273 13
465374 정보/ 유전자 치료로 11세에 처음 소리 들었다…"정상 청력 회복" [25] ㅇㅇ(182.230) 05.10 2899 32
465275 일반 "자, 다 모이셨군요!" [19] ㅇㅇ갤로그로 이동합니다. 05.10 4313 26
465172 정보/ 나노 수준의 해상도로 재구성된 인간 대뇌 피질의 페타복셀 조각 [16] ㅇㅇ(118.39) 05.10 1681 16
465079 일반 also-gpt2가 만들어준 2인용 핑퐁게임 [3] 천사다천사갤로그로 이동합니다. 05.10 1679 17
465051 일반 "AI가 성인 콘텐츠 만든다" 오픈AI 제작 허용 검토 (msn.com) [40] 루미코드갤로그로 이동합니다. 05.10 4430 36
465018 정보/ 알트만 : gpt4때문에 미래모델 영향 과소평가 우려 중 [32] ㅇㅇ(119.77) 05.10 3556 21
465014 정보/ gpt-4l-auto, gpt-4-auto 새모델 [15] ㅇㅇ(119.77) 05.10 808 12
465005 일반 also 나와서 기분 좋은 특붕이면 개추 ㅋㅋㅋ [3] ㅇㅇ(1.239) 05.10 2347 25
464957 일반 코딩 개초보가 GPT 로 고오급 웹사이트 만들기 [41] GPT PLUS(125.137) 05.10 4655 44
464910 일반 현재 갤 상황 요약...jpg [21] lightvector갤로그로 이동합니다. 05.09 5007 38
464863 일반 장문글)내가 특이점을 기다리는 이유...txt [33] ㅇㅇ(1.238) 05.09 3146 35
464749 일반 also gpt2 쓰레긴데? [9] ㅇㅇ(114.200) 05.09 1485 14
464601 일반 also-gpt2한테 샘알트만 비판하라고 해봤는데 [16] ㅇㅇ갤로그로 이동합니다. 05.09 4009 33
464599 일반 im-good과 also모델에게 실존 인물 비방을 시켜봤다. [9] 월코존버갤로그로 이동합니다. 05.09 2513 22
464597 정보/ 구글, ‘알파폴드3’ 네이처에 공개…정확도 1.5배, DNA까지 분석 [27] ㅇㅇ(125.191) 05.09 3348 30
464587 정보/ 알파폴드 3 발표 [21] ㅇㅇ(125.191) 05.09 3406 27
464357 일반 gpt2는 검색용모델일 확률이 높음 [5] ㅇㅇ(14.53) 05.08 3219 20
464341 정보/ AI가 신약 개발에 있어 획기적 성과를 거두는중 [18] ㅇㅇ(211.59) 05.08 3563 25
464249 일반 LLM방식은 한계가 있다고 말했던 얀르쿤이 옳았던것 같으면 개추 [13] ㅇㅇ(169.150) 05.08 3285 38
464125 일반 also-gpt2나 gpt2나 코딩 실력은 gpt4를 아득히 상회함 [8] Ad_Astra갤로그로 이동합니다. 05.08 4339 21
464124 일반 also good GPT2가 클로드 완전히 찢어갈기네 걍 [2] ㅇㅇ(121.124) 05.08 4218 20
464104 일반 와 also gpt2가 클로드 압살하네 ㅋㅋㅋ [1] 아몰라(223.62) 05.08 2859 16
464050 일반 트윗 ㅋㅋㅋ GPT2 요청 한번에 게임만들기 가능 [16] ㅇㅇ(14.63) 05.08 4280 30
464038 AI창 진짜 볼 수록 지리네 [25] ㅇㅇ(119.77) 05.07 5319 42
463983 일반 agi위해선 추론이 필수적인데 조금 짜치긴 하네... [18] lightvector갤로그로 이동합니다. 05.07 2958 25
463897 정보/ also gpt로 어려운 컴퓨터 비전 대회 성공했다 [38] ㅇㅇ(119.77) 05.07 3351 34
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2