디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[기타] [잡설] 수학문제와 AI. 알파지오메트리

Zeon갤로그로 이동합니다. 2024.05.02 15:56:00
조회 270 추천 2 댓글 4
														

최근의 AI는 알파고 나오면서 딥러닝에 대한 관심이 본격화됐고 잠시 소강상태였다가 많은 학습 데이터셋을 이용한 LLM(거대언어모델)을 통한 Chat GPT 가 출시되면서 지금 엄청난 열풍이 불고있지


이 LLM의 문제 중 하나는 원리상 '논리'에 약함

애초에 가능성이 높은 것을 제시해주는 것의 반복구조이기 때문에 A->(A가 있으면 B로갈 가능성이 높아서)B -> ... 이런식으로 내용을 뱉어내는데

수학문제는 이렇게 풀다간 어느순간 산으로 갈 가능성이 높지, 쉬운문제가 아니고서야

실제로 GPT3.5는 3점수준의 간단한것도 풀이과정이 처음에 잘 가다가 갑자기 헛소리 뱉는경우가 많고

GPT4도 좀 개선되었다곤 하지만 여전히 별로임


https://blog.mathpresso.com/gpt-4%EB%A1%9C-%EC%88%98%EB%8A%A5-%EC%88%98%ED%95%99-%EB%AC%B8%EC%A0%9C-%ED%92%80%EA%B8%B0-d99bdd16aab0

 


콴다개발자가 올린글을 보면 GPT4만 굴리면 작년 수능문제에서 대충 반타작정도, 즉 어려운 문제는 못품

가능성이 높은 것을 제시해주다보니 중간에 헛소리로 빠지는것을 자체 문제+풀이 데이터셋을 통해서 보완해주는 프로세싱을 추가해서 성능상승을 얻었음



근데 제한적인 영역(유클리드 평면기하)에서 이러한 LLM의 근본적인 문제를 거의 완벽에 가깝게 보완한 사례를 구글 Deepmind에서 제시함

2024/1에 Nature(네이처)에 발표된 original article에서 소개된 AlphaGeometry (알파지오메트리)

알파고와 같은 알파- 시리즈지


a15714ab041eb360be3335625683746f0053452cd6a6e989d63060f89816cd6e35f1fc2b89780ea649cc23fd89e6


테스트 데이터셋은 IMO-AG-30이라는 최근 20년정도동안 IMO에 출제된 유클리드 평면기하문제 30개를 모아서 진행



a15714ab041eb360be3335625683746f0053452cd6a6e989d63061f39910cd6e40d01710c979e0cf129a7f198d


이중 제한시간내 25개를 맞추었고 심지어 기존의 LLM과 달리 학습데이터셋 훈련 없이 순수 모델만 가지고도(w/o pre-training) 21개를 풀어낼 정도로 성능이 좋았음

다른 모델들의 성적도 적어놨는데 특히 GPT4는 0문제 맞췄다고 고로시돼있음

어떻게 이런 성과를 뽑아냈는가?



a15714ab041eb360be3335625683746f0053452cd6a6e989d63061f49e1ccd6e0823e19524f92330eaefc903d968


우리가 보통 도형문제 풀 때 보조선이 중요하지

그 보조선(파란색)은 LLM이 그어주는거야 (이런 상황에서 보통 보조선을 긋는 경우가 많 -> BC의 중점 D를 잡아서 AD를 그음)

그리고 그 상황에서 문제를 푸는 것은 원래 논리로 문제를 해결하는 기호AI(symbolic AI)가 해결 (ABD, ACD가 합동임을 설명하여 AB=AC이면 각B=각C임을 증명)


만약 이것만으로 해결이 안되면 -> 다시 LLM한테 보조선 등 그어달라고 하고 기호AI가 다시 해결 반복..


기하문제는 문제에 주어진 상황 그 자체만으로는 별 똥꼬쇼를 해도 못풀지만 적절한 보조선 등을 통해 그 뒤에는 순수 논리로 해결할 수 있는 상황을 만들어낼수 있지

순수 논리만으로는 못풀고 직관+논리의 적절한 조화가 필요하고 LLM이든(이건 앞에서 설명했지) 전통적인 기호AI든 원래같으면 못 풀음

수학문제가 대체로 그렇긴 하지만 얘네가 연습대상을 평면기하로 한정한 이유는 기하문제는 직관의 영역과 논리의 영역이 구분이 상대적으로 명확하다보니 그런 것으로 보임

즉, LLM은 인간의 직관을 모방(많은 경험으로 다져진), 기호AI는 논리해결의 영역을 맡아서 서로의 약점을 보완하여 문제를 해결한 셈



a15714ab041eb360be3335625683746f0053452cd6a6e989d63066f49812cd6edf02c98a0767fe99f63e3a9fb3ff


심지어 LLM을 통해서 학습데이터를 스스로 만드는 것도 가능

보조선 등을 그어가면서 새로운 상황이 만들어지고, 거기서 새로운 lemma가 만들어지고, ... 의 반복



a15714ab041eb360be3335625683746f0053452cd6a6e989d63066f69f13cd6ef1655b9627521e5d9b9522b22c7d


이런과정으로 심지어 풀이의 증명길이(proof length)가 최대 247줄인 수준의 말도안되는 복잡한 문제 상황까지 스스로 만들어 해결한 사례까지 확인

참고로 평균적인 IMO 문제들의 알파지오메트리의 증명길이는 대충 50몇줄 정도(이마저도 만들어진 학습데이터셋의 길이들 중 상위 0.05% 정도에 해당)

즉, 매우 복잡한 상황의 해결능력도 보여줄수 있음을 확인한 것



LLM이 지식을 베이스로 문제 상황을 해석하는 형태의 시험(ex. 의사면허시험, 변호사자격시험)류는 typical한 상황은 거의 정답을 낼수 있다 보니 이미 합격점을 넘어갔지만 수학에서는 상당히 낮은수준에서도 낙제점이었는데

이런 방식으로 보완을 할수있다는 것을 보여준 사례

추천 비추천

2

고정닉 0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2872 설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
19478 일반 6평 본 현역인데 상담좀해주세요 [17] ㅇㅇ(39.7) 06.09 297 0
19477 일반 그래도 명색이 메디컬반인데 [5] DDall갤로그로 이동합니다. 06.09 232 0
19476 일반 안녕하세요 선배님들 문돌이가 수리논술 준비하는 거 괜찮다고 보시나요? [8] ㅇㅇ(223.39) 06.09 229 0
19475 일반 ㅈㄴ빡치네걍 [1] ㅇㅇ갤로그로 이동합니다. 06.09 144 0
19474 일반 수마캠, 수논실 완강해보신분들 질문있습니다. [10] DifferentialGeometry갤로그로 이동합니다. 06.09 249 0
19473 일반 도저히 본인 적성을 모르겠으면 ㅇㅇ(211.201) 06.08 129 2
19472 일반 단답형이 답만쓰면 되는거임? [2] ㅇㅇ(104.28) 06.08 131 0
19471 일반 가천대는 의대 모의논술 안올리냐? [2] 포도송이갤로그로 이동합니다. 06.08 155 0
19470 자료+ 6월이후 논술 올인에 대해 Zeon갤로그로 이동합니다. 06.08 215 4
19469 일반 6평 국어 6등급인데 논술입갤하는게 맞겠지? [1] ㅇㅇ(118.235) 06.08 137 0
19468 일반 연대 모의 ㅅㅂ 존나어렵네 [5] ㅇㅇ(223.38) 06.08 268 0
19467 일반 고세약 확통 기하 [3] ㅇㅇ(106.242) 06.08 152 0
19466 기타 [잡설] 학과 선택에 있어 [1] Zeon갤로그로 이동합니다. 06.08 305 8
19465 일반정 2025 수리논술 일정 [3] ㅋㅋㅋ(118.35) 06.08 538 14
19464 일반 홍대 시립대 시간문제는 [2] Zeon갤로그로 이동합니다. 06.08 234 3
19463 일반 기하러 조언 [3] (220.78) 06.08 141 0
19462 일반 작년에 연낮공 붙었는데 [1] 앤디밴헤켄갤로그로 이동합니다. 06.08 269 0
19461 일반 시립 홍대 날짜 겹치던데 둘다쓰는건 너무 도박인가요 ? [3] ㅇㅇ(121.163) 06.08 183 0
19460 일반 수리논술에 수학 상하 <- 이건 어캐하냐? [4] 겅형욱.갤로그로 이동합니다. 06.07 240 0
19459 일반 모의논술 및 중하위권 논술 대학 첨삭중 [7] 수리논술맨(118.235) 06.07 197 0
19458 일반 최저맞추기용으로 물리 해도 괜찮겠죠? [1] ㅇㅇ(222.98) 06.07 116 0
19457 일반 광운대 얘네는 뭔 자신감으로 확통까지 넣노 [1] ㅇㅇ(223.39) 06.07 187 0
19456 일반 홍대논술도 수교과가 최상위티어일까요? [5] DifferentialGeometry갤로그로 이동합니다. 06.07 192 1
19455 자료+ 문제가 돌고 도는 예 Zeon갤로그로 이동합니다. 06.07 235 2
19454 자료+ 2025 중앙대 모의논술 문항, 해설 공유 [5] 퍼플스타갤로그로 이동합니다. 06.07 265 2
19452 일반 카의는 논술이 수능틱하게 나오나요? [2] ㅇㅇ(223.38) 06.07 205 0
19451 일반 논술 카드 추천좀 [10] 지잡대생(118.235) 06.07 233 0
19450 일반 2학년 1학기 하는중인데 [1] 프갤러(58.233) 06.07 138 0
19449 일반 6평 성적인데 논술 올인해도 될까요? [16] ㅇㅇ(220.79) 06.06 431 0
19448 일반 동국대 탈출해서 한양대 ㅇㅇ(49.1) 06.06 155 0
19447 일반 사탐런한새끼있냐?? [2] ㅇㅇ(223.38) 06.06 193 0
19446 일반 6평 결과 [7] ㅇㅇ(118.235) 06.06 283 0
19445 일반 기하 확통 개념 뭐로 시작해야됨? [3] ㅇㅇ(211.203) 06.06 183 0
19444 일반 최저가 항상 최우선이라는걸 잊으면 안된다 [1] ㅇㅇ(106.102) 06.06 157 1
19443 일반 광운대 선착 1000 끝났을까? [1] ㅇㅇ(119.207) 06.06 120 0
19442 일반 제시문에 코사인법칙 나와있는데 [4] 베이가충(211.235) 06.06 152 0
19441 일반 여긴 파딱이 넘 유용하네 [1] ㅇㅇ(119.207) 06.06 128 2
19440 일반 시대 7월에 신설반 열릴까? [2] ㅇㅇ(223.38) 06.06 120 0
19439 일반 한 1주에서 2주정도 수논 올인하고 유지만 하는거어때 [3] ㅇㅇ(106.102) 06.06 131 0
19437 일반 경희대랑 시립대중에 [5] 베이가충(211.235) 06.06 203 0
19436 일반정 2025 논술일정(외부 url) Zeon갤로그로 이동합니다. 06.06 418 9
19435 일반 카의 논술 최저 투과목 필수죠? [2] ㅇㅇ(222.117) 06.06 162 0
19433 일반 수열의 극한이 괴리감 심하긴 함 ㅋㅋ [1] PromiseofHeaven갤로그로 이동합니다. 06.06 211 1
19432 일반 시대 논술도 라이브 있음? [1] ㅇㅇ(121.169) 06.06 168 0
19430 일반 수열의 극한 공부하고 있는데 수능이랑은 진짜 다르구나 [2] 억까충차단갤로그로 이동합니다. 06.05 215 0
19427 일반 고대 모논 본사람한테 복기해달라하면 불법임? [3] ㅇㅇ(121.169) 06.05 182 0
19426 일반 약술형에서 경쟁률 낮은 학교 [3] 수갤러(210.218) 06.05 175 0
19425 자료+ 2025 연세대 모의논술 해설 [7] 퍼플스타갤로그로 이동합니다. 06.05 653 8
19424 기타 지원하는 학교 가이드북은 무조건 한번은 봐봐 Zeon갤로그로 이동합니다. 06.05 216 3
19423 일반정 광운대 모의 관련 Zeon갤로그로 이동합니다. 06.05 129 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2