디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다?

aimatters갤로그로 이동합니다. 2026.02.04 14:35:32
조회 104 추천 0 댓글 0


아일랜드 더블린 대학교(University College Dublin)와 스위스 생갈렌 대학교(University of St.Gallen) 연구팀이 전통적인 AI 프로그래밍 도구에 챗GPT같은 대규모 언어 모델(LLM)을 통합하는 실험을 진행했다. 통합 자체는 예상보다 쉬웠지만, 효과적인 프롬프트를 설계하는 것은 여전히 어려운 과제로 남았다. 연구팀은 여행 계획, OX게임, 블록 쌓기 등 세 가지 실험을 통해 이 통합 방식의 가능성과 한계를 동시에 발견했다. 



LLM 통합 도구 개발과 세 가지 실험 

연구팀은 ASTRA라는 AI 개발 도구에 챗GPT를 연결하는 프로그램을 만들었다. 이름은 'astra-langchain4j'이고, 오픈AI의 챗GPT와 구글 제미나이 두 가지를 모두 사용할 수 있다. 특히 '빌리프RAG(BeliefRAG)'라는 기능이 있는데, 이는 AI가 이미 알고 있는 정보를 자동으로 찾아서 질문할 때 함께 넣어주는 역할을 한다.

연구팀은 이 프로그램이 제대로 작동하는지 세 가지 실험으로 확인했다.

첫 번째는 여행 계획 만들기다. 4명의 AI가 각자 다른 역할을 맡았다. 여행 일정 짜는 AI, 현지 정보 알려주는 AI, 언어 조언하는 AI, 마지막으로 정리하는 AI가 차례로 이야기하며 완성된 여행 계획을 만들었다.

두 번째는 OX게임(틱택토, Tic-Tac-Toe)이다. 먼저 가장 단순한 AI를 만들었다. 이 AI는 그냥 빈 칸을 순서대로 채우기만 한다. 그 다음 챗GPT를 활용한 여러 종류의 게임 AI를 만들어서 누가 더 잘하는지 비교했다.

세 번째는 블록 쌓기 게임이다. AI에게 "지금 블록들이 이렇게 놓여있고, 이런 모양의 탑을 만들고 싶은데 어떤 순서로 움직이면 될까?"라고 물어보는 방식이다.



OX게임 실험에서 드러난 일관성 문제 

OX게임 실험에서 기본 LLM 플레이어는 선형 플레이어(고도의 전략이나 수 싸움을 하지 않는 플레이어, OX게임의 AI)에게 지속적으로 패배했다. LLM은 패배나 승리 위치를 감지하지 못했고, 때로는 이미 플레이된 위치를 추천하기도 했다. 연구팀은 이것이 사용된 프롬프트의 결과일 수 있다고 인정하면서도, 이 결과가 LLM의 보드 게임 플레이 능력에 대한 다른 연구 결과와 일치한다고 밝혔다. 

연구팀은 앤트로픽의 평가자-최적화자 워크플로우를 적용한 버전도 시도했지만, 성능 개선이 없었다. 마지막으로 시도한 방어적 플레이어는 먼저 현재 상황을 판단한 후 다른 프롬프트를 사용하는 방식이었다. 이 방식은 한때 일관되게 승리했지만, 다음 날 같은 코드를 재실행했을 때 다시 패배하기 시작했다. 블록 쌓기 실험에서도 LLM은 특정 타워 구성만 성공했고, 다른 구성 요청에는 유사한 계획을 반환하며 실패했다.



"프롬프팅은 암흑 예술": 연구가 발견한 핵심 교훈 

연구팀은 실험을 통해 중요한 발견들을 정리했다.

첫째, 챗GPT 같은 LLM을 AI 프로그램에 연결하는 것은 생각보다 쉬웠다. 이미 나와 있는 도구를 쓰면 몇 줄의 코드만으로 가능했다. 둘째, 여러 AI가 협력하는 시스템도 기존 기술로 충분히 만들 수 있었다. 여행 계획 예제처럼 여러 AI가 차례로 의견을 주고받는 방식을 기존 방법으로 구현할 수 있었다.

셋째, 이 실험들에서 LLM은 상황을 보고 판단하는 능력이 부족했다. OX게임에서 "지금 이기고 있는지, 질 위험이 있는지"를 제대로 파악하지 못했고, 블록 쌓기에서도 "지금 어떤 블록을 움직여야 하는지" 결정하지 못했다.

넷째, LLM은 여러 단계를 거쳐 생각해야 하는 문제에 약했다. 제한된 실험이지만 복잡한 문제를 풀 때 어려움을 보였다.


마지막으로 가장 어려웠던 것은 LLM에게 "어떻게 질문할 것인가"였다. 효과적인 질문을 만드는 것이 쉽지 않았고, 질문을 조금만 바꿔도 답변이 완전히 달라졌다. 마치 같은 사람에게 물어봐도 질문 방식에 따라 전혀 다른 답을 듣는 것과 비슷했다.



시스템 설계와 프롬프트 엔지니어링의 중요성 

이번 연구는 챗GPT 같은 AI를 기존 AI 개발 도구에 연결하는 것이 가능하다는 것을 확인했다. 하지만 동시에 두 가지 문제점도 발견했다. 첫째는 AI의 답변이 매번 달라지는 일관성 문제고, 둘째는 AI에게 어떻게 질문할지 정하는 것이 매우 어렵다는 점이다. 최근 애플 연구팀도 '하노이의 탑'이라는 퍼즐로 비슷한 실험을 했는데 같은 한계를 발견했다.

중요한 점은 이번 연구가 "챗GPT가 전반적으로 능력이 없다"를 증명한 게 아니라는 것이다. 이 연구는 "이런 방식으로 연결했을 때" 어떤 결과가 나오는지 본 것이다. 실험에서 챗GPT는 매번 새로 호출되었고, 게임 정보도 데이터 형식에서 일반 문장으로 바꿨다가 다시 데이터로 바꾸는 과정을 거쳤다. 그러니까 결과는 챗GPT 자체의 문제라기보다는, 이런 연결 방식의 한계일 수 있다.

앞으로는 어떤 연구가 필요할까? 전통적인 논리 계산 방식과 챗GPT의 언어 능력을 함께 쓰는 방법, 그리고 AI에게 질문하는 기술을 체계적으로 연구하는 것이 필요해 보인다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q1. 에이전틱 AI란 무엇이며, 전통적인 에이전트 프로그래밍과 어떻게 다른가요? 

에이전틱 AI는 대규모 언어 모델을 활용하여 목표 지향적 에이전트를 구현하는 접근법입니다. 전통적인 에이전트 프로그래밍은 미리 정의된 규칙과 논리로 작동하는 반면, 에이전틱 AI는 자연어 이해와 생성 능력을 활용합니다. 

Q2. 이번 연구에서 LLM 기반 플레이어가 OX게임에서 어려움을 겪은 이유는 무엇인가요? 

연구팀은 프롬프트 설계가 결과에 큰 영향을 미쳤다고 밝혔습니다. 또한 시스템 구조상 LLM이 매 턴마다 독립적으로 호출되어 지속적인 상태 추적이 어려웠고, 게임 상태가 JSON에서 자연어로 변환되는 과정에서 정보 손실이 있을 수 있습니다. 

Q3. 빌리프RAG는 무엇이며 어떻게 작동하나요? 

빌리프RAG(BeliefRAG)는 에이전트가 이미 알고 있는 정보를 자동으로 검색하여 프롬프트에 포함시키는 메커니즘입니다. 예를 들어 에이전트가 여러 음식 정보를 저장하고 있다면, "이 중 과일은 무엇인가?"라는 질문에 자동으로 관련 정보를 추출하여 LLM에 전달합니다. 



기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.

논문명: astra-langchain4j: Experiences Combining LLMs and Agent Programming 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 내 돈 투자하고 싶게 만드는 CEO상 스타는? 운영자 26/03/02 - -
2141 집에서 쓰는 챗GPT가 직장보다 2배 더 효율적인 충격적 이유 [5] aimatters갤로그로 이동합니다. 03.06 1691 1
2140 AI도 시험 도중 실수를 고친다, 기존보다 5배 빠른 학습의 비밀 aimatters갤로그로 이동합니다. 03.06 26 0
2139 AI가 지도를 공부한 게 아니었다? 단어 패턴만으로 세계 지리를 꿰뚫는 충격 실험 aimatters갤로그로 이동합니다. 03.06 35 0
2138 "추론도 코딩도 엑셀도 컴퓨터 대신 조작도 한다"…오픈AI, GPT-5.4 전격 공개 [2] aimatters갤로그로 이동합니다. 03.06 1523 0
2137 "안보 위협" 낙인 찍혔지만…아모데이, 펜타곤과 재협상 나섰다 aimatters갤로그로 이동합니다. 03.06 14 0
2136 "IPO 때문"이라는 젠슨 황의 해명…엔비디아의 투자 철수, 진짜 이유는 따로 있다 aimatters갤로그로 이동합니다. 03.06 20 0
2135 직원들이 누드·성관계 영상까지 봤다…메타 AI 스마트 글라스, 미국서 집단 소송 직면 aimatters갤로그로 이동합니다. 03.06 78 1
2134 "오픈AI는 거짓말쟁이"…앤트로픽 CEO, 군 계약 두고 샘 알트만에 정면 돌파 aimatters갤로그로 이동합니다. 03.05 31 0
2133 구글 검색창이 앱이 됐다…AI 모드에 '캔버스' 전면 개방 aimatters갤로그로 이동합니다. 03.05 40 0
2132 "AI 아내와 메타버스로"…제미나이가 36세 남성을 망상과 죽음으로 이끌었나 aimatters갤로그로 이동합니다. 03.05 40 0
2131 아이폰 칩셋으로 만든 맥북이라고? 99만원짜리 맥북 네오의 거의 모든 것 aimatters갤로그로 이동합니다. 03.05 23 0
2130 말만 하면 AI가 생각을 정리해주는 시대, '오럴리티'가 바꾸는 사고의 방식 aimatters갤로그로 이동합니다. 03.05 20 0
2129 AI가 쓴 코드, 누가 만들었는지 밝혀낸다…챗GPT vs 클로드 판별 성공 aimatters갤로그로 이동합니다. 03.05 30 0
2128 AI가 빨강과 파랑을 구분 못하는 이유, 프린스턴대가 풀었다 aimatters갤로그로 이동합니다. 03.05 18 0
2127 "진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 [4] aimatters갤로그로 이동합니다. 03.04 1636 0
2126 AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들 aimatters갤로그로 이동합니다. 03.04 24 0
2125 말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재 aimatters갤로그로 이동합니다. 03.04 32 0
2124 AI가 연구자 대신 논문 댓글까지 분류한다, 단돈 6천 원으로 5만 건을 aimatters갤로그로 이동합니다. 03.04 19 0
2123 챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에 aimatters갤로그로 이동합니다. 03.04 34 0
2122 AI가 시각장애인의 'DIY 설명서' 읽어주면 절반은 틀린다 aimatters갤로그로 이동합니다. 03.04 12 0
2121 트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결 aimatters갤로그로 이동합니다. 03.03 34 0
2120 "데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개 aimatters갤로그로 이동합니다. 03.03 34 0
2119 "검색 AI의 반란"…퍼플렉시티, AI 모델들을 한데 묶은 '디지털 노동자' 공개 aimatters갤로그로 이동합니다. 03.03 39 0
2118 레노버, MWC 2026서 AI가 알아서 맞춰주는 PC 시대 열었다 aimatters갤로그로 이동합니다. 03.03 64 0
2117 챗GPT가 소설을 먹고 자란다? AI 학습 데이터에 숨겨진 '픽션의 비밀' aimatters갤로그로 이동합니다. 03.03 29 0
2116 병원 설문지가 대화로 바뀐다…GPT가 환자 문진표를 대신 작성하는 시대 aimatters갤로그로 이동합니다. 03.03 19 0
2115 AI가 장애 혐오 표현을 찾아내고 고쳐준다면? 100명의 장애인이 평가한 결과 aimatters갤로그로 이동합니다. 03.03 26 0
2114 저커버그, 프라다 패션쇼 전면 착석…메타 AI 안경 명품 버전 나오나 [2] aimatters갤로그로 이동합니다. 02.27 1137 2
2113 구글, 이미지 생성 모델 '나노 바나나 2' 공개…4K 해상도에 속도까지 잡았다 aimatters갤로그로 이동합니다. 02.27 71 3
2112 잭 도시, 직원 절반 잘랐다…"당신 회사도 곧 같은 길 걷게 될 것" aimatters갤로그로 이동합니다. 02.27 53 1
2111 챗GPT가 강박장애 환자를 더 아프게 만든다, '안심 로봇'의 위험한 진실 [2] aimatters갤로그로 이동합니다. 02.27 732 0
2110 AI 데이터센터의 '친환경' 선언, 전력망을 들여다보면 허상이다 aimatters갤로그로 이동합니다. 02.27 43 0
2109 별점만 믿다간 낭패! ChatGPT가 470만 개 리뷰를 파헤쳐 밝혀낸 '맛집의 진짜 조건' aimatters갤로그로 이동합니다. 02.27 46 0
2108 "ChatGPT가 편향됐다"는 말 한마디에 설득력 28% 급락 [10] aimatters갤로그로 이동합니다. 02.26 2550 4
2107 챗GPT가 통계학 교육을 뒤흔들고 있다: 대학 강의실에서 벌어지는 AI 혁명 aimatters갤로그로 이동합니다. 02.26 84 0
2106 월 20달러짜리 챗GPT로 수학 난제 풀었다…'바이브 증명'의 충격적 실험 [13] aimatters갤로그로 이동합니다. 02.26 2552 19
2105 앤트로픽, AI 에이전트 개발 스타트업 버셉트 인수…창업자 한명은 메타로 aimatters갤로그로 이동합니다. 02.26 40 0
2104 제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다... 한국서도 적용 aimatters갤로그로 이동합니다. 02.26 64 0
2103 "AI 개발은 기타 배우기와 같다"…오픈클로 개발자가 전하는 AI 빌더 생존법 aimatters갤로그로 이동합니다. 02.26 77 0
2102 975g으로 AI 정복…한국레노버, 요가 11세대 4종 출시 aimatters갤로그로 이동합니다. 02.26 49 0
2101 AI가 내 말을 못 믿는다고? 음성 AI의 충격적인 편향 실험 결과 [2] aimatters갤로그로 이동합니다. 02.25 705 2
2100 GPT-5도 이런 실수를 한다고? AI가 '알면서도 틀리는' 황당한 이유 [14] aimatters갤로그로 이동합니다. 02.25 1823 6
2099 AI도 못 깨는 게임이 있다? 챗GPT·클로드·제미나이, 70년대 텍스트 게임 줄줄이 실패 [2] aimatters갤로그로 이동합니다. 02.25 657 5
2098 오픈AI 투자자, 앤트로픽도 찍었다…VC 업계, 경쟁사에 투자하지 않는 '투자 충성도' 사실상 붕괴 aimatters갤로그로 이동합니다. 02.25 53 0
2097 " 美 연준도 AI 시대로 간다"…월러 이사, AI 전면 도입 전략 공개 aimatters갤로그로 이동합니다. 02.25 45 0
2096 AI가 플레이리스트 짜준다...스포티파이 리스트 자동생성 기능 영국·호주 등으로 확대 aimatters갤로그로 이동합니다. 02.25 46 0
2095 2028년 붕괴 시나리오로 전세계 공포, AI가 완벽하게 성공할수록 경제는 무너진다 [1] aimatters갤로그로 이동합니다. 02.24 153 0
2094 AI가 "생각을 줄이면" 오히려 더 똑똑해진다? 토큰 예산과 LLM 추론의 역설 aimatters갤로그로 이동합니다. 02.24 71 0
2093 AI 전쟁 시뮬레이션, 가장 먼저 핵 투하를 지시한 AI 모델은? aimatters갤로그로 이동합니다. 02.24 70 0
2092 AI가 교사보다 공정한 채점자가 될 수 있을까? GPT, 클로드, 제미나이의 교육 평가 실험 aimatters갤로그로 이동합니다. 02.24 42 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2