디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 딥마인드, 미세조정 없이 성능 개선하는 ‘다중샷 상황 내 학습’ 공개

ㅇㅇ(182.230) 2024.04.26 18:17:02
조회 1914 추천 26 댓글 11
														

https://www.aitimes.com/news/articleView.html?idxno=159122

 



7ce88977b78007f739ee85e147ee71686536232284873cc610c577d5178e570087



구글 딥마인드 연구진이 대형언어모델(LLM)의 긴 컨텍스트 창을 활용, 복잡한 미세조정 없이 애플리케이션에 맞춰 모델의 성능을 개선하는 학습 기술을 공개했다. 그러나 이에 따른 리소스 문제로, 애플리케이션 탐색이나 프로토타이핑 등 초기 단계에서 LLM 성능을 시험해볼 도구로 유용하다는 평가다.


벤처비트는 24일(현지시간) 구글 딥마인드 연구진이 프롬프트에 수백~수천개의 훈련 사례를 적용, 미세조정을 하지 않고 LLM의 성능을 향상시킬 수 있는 ‘다중샷 상황 내 학습(Many-shot In-Context Learning)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.


일반적으로 ‘퓨샷 학습(Few-shot) 학습’이라고도 하는 ‘상황 내 학습(ICL)’을 통해 LLM은 추론 시 제공된 예제를 통해 새로운 작업을 학습할 수 있다. LLM에 해결해야 하는 문제와 함께 문제를 해결하는 몇가지 응답 예제가 포함된 프롬프트를 제공하면, LLM이 예제를 보고 학습하는 방식이다.


미세조정과 달리 ICL은 모델의 매개변수를 변경할 필요가 없기 때문에 사용자가 더 쉽게 사용하고 액세스할 수 있다.


다만 ICL은 모델의 컨텍스트 창에 의해 제한된다. 예를 들어 'GPT-3'에는 약 2000개의 토큰을 지원하는 컨텍스트 창이 있어 프롬프트에 입력할 수 있는 예제 수가 제한된다. 


하지만 최신 모델들은 10만개 이상의 토큰을 지원하는 컨텍스트 창을 제공하며, 특히 구글의 '제미나이 1.5 프로'는 100만개가 넘는 토큰을 지원한다. 이로 인해 각 프롬프트에 수천개의 ICL 예제를 넣을 수 있다. 


연구진은 다중샷 ICL이 수학 문제 해결, 질문 답변, 결과 보상 모델링, 리소스가 부족한 언어 번역, 계획 및 감정 분석 등 여러 문제 영역에서 LLM의 성능에 얼마나 영향을 미치는지 실험했다.



7ce88977b78007f739ee85e144ee716bca9923d6f637351adc44da1fd7180fc031



어떤 경우에는 하나의 프롬프트에 최대 8192개의 ICL 예제가 포함됐다. 연구 결과에 따르면 더 많은 예제가 프롬프트에 추가될수록 모델의 성능이 계속 향상되는 것으로 나타났다.


번역 작업에서 다중샷 ICL을 적용한 제미나이 프로는 리소스가이 부족한 쿠르드어와 타밀어에 대해 새로운 최고 성능을 기록했다. 요약 작업에서 다중샷 ICL을 적용한 제미나이 프로가  미세조정된 요약 모델과 동등한 성능을 기록했다. 모든 작업에서 모델 성능은 프롬프트 내의 예제의 수가 수십만개 이상의 토큰으로 확장된 경우에만 최대에 도달했다.


다만 다중샷 ICL은 인간이 대량의 고품질 예제를 생성해야하는 어려움이 있다. 연구진은 이 문제를 해결하기 위해 LLM에 작업에 대한 사고사슬(CoT) 프롬프트를 제공, 모델이 원하는 예제를 생성하게 했다. CoT 프롬프트는 유사한 작업을 해결하기 위한 추론 단계를 프롬프트 앞에 추가, LLM이 원하는 작업을 위한 올바른 예제를 생성하도록 한다. 


연구진은 LLM이 작업 해결에 필요한 지식을 이미 보유하고 있는 경우, 프롬프트에 관련 정보를 추가해 모델이 내부 개념에 더 집중하도록 하는 방법도 도입했다. 문제에 대한 제로샷이나 퓨샷 프롬프트와 함께 해결되지 않은 문제 목록으로 프롬프트를 구성하는 식이다.


연구진은 “CoT 프롬프트를 사용하거나 문제만 사용하면 인간 생성 데이터에 대한 다중샷 ICL의 의존성을 줄일 수 있다는 것을 발견했다”라고 말했다.


특히 일부 전문가들은 LLM의 컨텍스트 창이 커짐에 따라 미세조정 모델이나 검색 증강 생성(RAG)과 같은 다른 기술이 더 이상 필요하지 않다고 지적한다. 모델을 미세조정하거나 복잡한 검색 파이프라인을 생성하는 대신, 작업에 필요한 정보와 학습 예제 및 지침이 포함된 프롬프트를 만들 수 있다는 설명이다.


그러나 현재로서는 다중샷 ICL과 같은 기술을 확장하기 어렵다. 수백개의 예제로 모든 프롬프트를 늘리면, 추론 속도와 비용이 폭발적으로 증가하기 때문이다. 


따라서 다중샷 ICL은 LLM 애플리케이션 프로그램의 탐색 및 프로토타이핑 단계에서 다양한 프롬프트 엔지니어링 기술을 시험해 볼 수 있는 유용한 도구가 될 수 있다는 지적이다.


자동등록방지

추천 비추천

26

고정닉 10

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
484206 정보/ '모라' 미쳤는데 이거 gpt5 에 통합될듯 ㅋㅋ [51] ㅇㅇ(125.134) 05.30 4677 32
484167 정보/ MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [7] ㅇㅇ갤로그로 이동합니다. 05.30 2868 26
484116 일반 몇일동안 얀르쿤 VS 머스크 키베 요약 [41] 있었갤로그로 이동합니다. 05.29 4162 34
483759 정보/ 샘알트만 재산 절반 기부 서명 [47] 특술람갤로그로 이동합니다. 05.29 4238 35
483721 정보/ 며칠전 퇴사한 초정렬팀 공동리더 앤트로픽 행 [10] ㅇㅇ갤로그로 이동합니다. 05.29 1163 16
483708 정보/ 정부, 뉴욕대에 'AI랩' 구축…공동소장으로 얀 르쿤 선임 [56] ㅇㅇ갤로그로 이동합니다. 05.29 3141 26
483674 정보/ 세계 최초 '바이오 프로세서' 플랫폼 등장...인간 뇌 오가노이드 사용 [2] ㅇㅇ갤로그로 이동합니다. 05.28 848 21
483658 일반 레이 커즈와일 '특이점이 온다' 예측 점검. (팩트체크) [21] ㅇㅇ갤로그로 이동합니다. 05.28 1550 24
483634 정보/ 오픈AI 글로벌 부사장 "우리의 사명은 초지능 구축이 아니다" [17] ㅇㅇ갤로그로 이동합니다. 05.28 4053 28
483580 정보/ 오랜만에 재밌게 읽은 논문(트랜스포머 계산문제 해결) [16] ㅇㅇ(119.77) 05.28 2894 33
483576 일반 큰거 떴는데 [26] ㅇㅇ갤로그로 이동합니다. 05.28 5288 26
483217 정보/ 알파고로 보는 AI가 보여줄 미래 [28] ㅇㅇ(59.26) 05.27 5273 35
483143 일반 얀르쿤 다크나이트 맞음 ㅇㅇ [49] ㅇㅇ(218.147) 05.27 4249 40
483130 정보/ 리사 수) 2027년까지 에너지 효율 100배 끌어올린다 [13] ㅇㅇ갤로그로 이동합니다. 05.27 3580 20
483122 정보/ NASA, '날씨 예측 모델' 오픈 소스 공개 [14] ㅇㅇ갤로그로 이동합니다. 05.27 2343 21
483121 정보/ 영화 '퓨리오사'에 생성 AI 활용..."아역에 주연 얼굴 합성" [12] ㅇㅇ갤로그로 이동합니다. 05.27 3015 20
483113 일반 머스크 까는 얀르쿤 [35] ㅇㅇ갤로그로 이동합니다. 05.27 3537 37
483018 정보/ 이세돌 9단 “AI 발전은 긍정적…두려워 말라” [54] ㅇㅇ(125.191) 05.27 3836 33
482996 정보/ 전 구글X COO 모가댓 "믿거나 말거나 AGI 늦어도 2027까지 온다 [34] ㅇㅇ(125.191) 05.27 3506 35
482974 정보/ “억대 연봉 옛말 됐다”…이 직원 4명분 AI가 도맡아 ‘대규모 칼바람’ [23] lightvector갤로그로 이동합니다. 05.27 3561 17
482985 일반 특붕쿤콘, 특붕쿤콘dlc가 출시됐습니다!!!!!! [59] ㅇㅇ갤로그로 이동합니다. 05.27 2152 37
482249 정보/ 컴퓨터 저장 장치의 가격은 1950년대 이후 기하급수적으로 하락했습니다. [30] 은바다갤로그로 이동합니다. 05.25 3285 18
482593 정보/ 머스크 "세계 최대 데이터센터 구축으로 AGI 본격 경쟁" [19] AGI#갤로그로 이동합니다. 05.26 3276 23
482432 정보/ 국내 최초 Ai 게임회사의 신작.jpg [25] ㅇㅇ(61.74) 05.25 6056 27
482862 일반 이 짤 ㅈㄴ 웃기네ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [18] ㅇㅇ(61.97) 05.26 4639 44
482728 일반 대체 우리 아버지 어머니 세대들은 '논문' 이거 어떻게 쓴거냐? [40] ㅇㅇ(58.29) 05.26 2233 25
482528 일반 아무튼 완장잘못맏는듯.... [5] ■x갤로그로 이동합니다. 05.26 1003 13
482246 일반 일러스트레이터들에게 하고싶은 말 [28] 엠창인생막장의끝갤로그로 이동합니다. 05.25 1540 18
481987 일반 마크롱 대통령"AI는 혁명" [20] ㅇㅇ갤로그로 이동합니다. 05.24 5315 26
481992 일반 와 시o발 뭐냐......................? [33] ㅇㅇ(121.159) 05.24 6915 28
482101 일반 머스크 "AI가 미래 인간 일자리 전부 뺏어...노동은 취미 활동" [49] 내복맨갤로그로 이동합니다. 05.25 5534 30
482012 정보/ 코히어, 한국어 포함 23개 언어 지원 LLM 출시..."전작보다 강력 [10] ㅇㅇ(125.191) 05.25 3621 29
481981 일반 특이점 와 이 씨발 앰생선형충새끼들아ㅋㅋㅋㅋㅋㅋㅋㅋㅋ [38] ㅇㅇ(218.52) 05.24 5014 51
481938 일반 전율의 2023 [43] agi2024갤로그로 이동합니다. 05.24 4100 41
481774 일반 이 모델 하나면 니들이 빠는 모델 전원 몰살 가능함ㅋㅋㅋㅋㅋ [13] ㅇㅇ갤로그로 이동합니다. 05.24 2088 18
481690 일반 얀르쿤.. 얀르쿤..! 오보에테.. 나이..? [2] ㅇㅇ(221.140) 05.24 1057 22
481644 일반 [충격] 얀르쿤 초지능AI 프로젝트 시작한다 [46] ㅇㅇ(218.147) 05.24 4065 33
481635 정보/ 바이두 CEO "인간만큼 똑똑한 AI, 10년도 더 걸릴 것" [19] ㅇㅇ(125.191) 05.24 1255 12
481559 정보/ '금문교 클로드' 사용 가능 [17] ㅇㅇ(119.77) 05.24 1133 13
481333 일반 OpenAI "차세대 모델은 1~2년 안 비교할 수 없을 정도로 발전" [60] ㅇㅇ(125.191) 05.24 5837 33
481306 정보/ 멀티모달 에이전트 예시 영상 바로보기 [6] ㅇㅇ갤로그로 이동합니다. 05.23 594 16
481297 정보/ GPT보이스 데모 풀영상 바로보기 [10] ㅇㅇ갤로그로 이동합니다. 05.23 722 14
481181 일반 "인공지능 시대 기본.소득으로 준비" [10] ㅇㅇ(116.120) 05.23 989 19
480830 정보/ 경기도 공무직 시간외수당 정산, 챗GPT로 자동화했다 [33] ㅇㅇ(124.56) 05.23 4883 29
480352 정보/ 유전자 가위 이용해 HIV 완전 제거 성공, 에이즈 정복 가까워져 [51] ㅇㅇ(221.152) 05.22 4433 28
480631 정보/ 르쿤이햄 사인회 개최 [13] ㅇㅇ(119.77) 05.22 584 13
480429 일반 GPT4-O한테 외모평가를 해달라고 해봤다...jpg [42] ㅇㅇ(211.179) 05.22 5314 45
480938 일반 눈팅하다가 느낀건데 여기는 그냥 탑골공원임 [15] ㅇㅇ(14.7) 05.23 712 17
480922 정보/ 워싱턴포스트)OpenAI는 스칼렛 요한슨을 복제하지 않았다 [12] ㅇㅇ(125.191) 05.23 1376 19
480191 일반 GPT-4o 에게 외모평가를 받아보자 [47] 댓논(125.137) 05.22 4963 29
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2